Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons InternVL3, une avancée majeure dans la série InternVL, caractérisée par un paradigme de pré-entraînement multimodal natif. Plutôt que d'adapter un grand modèle de langage (LLM) textuel en un modèle de langage multimodal (MLLM) prenant en charge les entrées visuelles, InternVL3 acquiert conjointement des capacités multimodales et linguistiques à partir de données multimodales diversifiées et de corpus textuels purs lors d'une seule étape de pré-entraînement. Ce paradigme de formation unifié résout efficacement les complexités et les défis d'alignement couramment rencontrés dans les pipelines de formation post-hoc conventionnels pour les MLLM. Pour améliorer davantage les performances et l'évolutivité, InternVL3 intègre un encodage de position visuelle variable (V2PE) pour supporter des contextes multimodaux étendus, utilise des techniques avancées de post-formation telles que le réglage fin supervisé (SFT) et l'optimisation mixte des préférences (MPO), et adopte des stratégies de mise à l'échelle au moment du test ainsi qu'une infrastructure de formation optimisée. Des évaluations empiriques approfondies démontrent qu'InternVL3 offre des performances supérieures sur un large éventail de tâches multimodales. En particulier, InternVL3-78B atteint un score de 72,2 sur le benchmark MMMU, établissant un nouvel état de l'art parmi les MLLM open-source. Ses capacités restent très compétitives par rapport aux modèles propriétaires leaders, y compris ChatGPT-4o, Claude 3.5 Sonnet et Gemini 2.5 Pro, tout en maintenant une forte compétence en langage pur. Dans le respect des principes de la science ouverte, nous publierons publiquement les données de formation et les poids du modèle pour favoriser la recherche et le développement des MLLM de nouvelle génération.
L'émergence de DeepSeek R1 et QwQ 32B a permis de franchir les barrières de performance pour exécuter des modèles de langage de pointe (LLMs) sur des appareils domestiques. Bien que le matériel grand public devienne plus puissant et que la quantification des modèles s'améliore, les solutions existantes côté utilisateur nécessitent toujours des clusters GPU, une grande quantité de RAM/VRAM et une bande passante élevée, bien au-delà de ce qu'un cluster domestique standard peut gérer. Cet article présente prima.cpp, un système d'inférence distribué qui exécute des modèles de l'échelle des 70B sur des appareils domestiques courants en utilisant un mélange de CPU/GPU, une faible quantité de RAM/VRAM, le Wi-Fi et un support multiplateforme. Il utilise mmap pour gérer les poids du modèle et introduit un parallélisme en anneau avec préchargement pour masquer le chargement depuis le disque. En modélisant l'hétérogénéité dans le calcul, la communication, le disque, la mémoire (et son comportement de gestion) ainsi que le système d'exploitation, il attribue de manière optimale les couches du modèle au CPU et au GPU de chaque appareil, réduisant ainsi davantage la latence des tokens. Un algorithme élégant nommé Halda est proposé pour résoudre ce problème d'affectation NP-difficile. Nous évaluons prima.cpp sur un cluster domestique standard à quatre nœuds. Il surpasse llama.cpp, exo et dllama sur des modèles de 30B+ tout en maintenant la pression mémoire en dessous de 6%. Cela rend accessibles les modèles de pointe de 30B à 70B, tels que Llama 3, DeepSeek R1, Qwen 2.5 et QwQ, aux assistants domestiques, rendant ainsi l'IA avancée véritablement accessible aux particuliers. Le code est open source et disponible à l'adresse https://github.com/Lizonghang/prima.cpp.
Le GPT-4o multimodal d'OpenAI a démontré des capacités remarquables en génération et édition d'images, mais sa capacité à réaliser une synthèse sémantique informée par la connaissance du monde—intégrant de manière fluide les connaissances du domaine, le raisonnement contextuel et le respect des instructions—reste à prouver. Dans cette étude, nous évaluons systématiquement ces capacités selon trois dimensions critiques : (1) le respect global des instructions, (2) la précision des modifications fines, et (3) le raisonnement post-génération. Bien que les benchmarks existants mettent en avant les fortes capacités de GPT-4o en génération et édition d'images, notre évaluation révèle des limitations persistantes du modèle : il interprète souvent les instructions de manière littérale, applique de manière incohérente les contraintes de connaissances, et éprouve des difficultés avec les tâches de raisonnement conditionnel. Ces résultats remettent en question les hypothèses dominantes concernant la compréhension unifiée et les capacités de génération de GPT-4o, exposant des lacunes significatives dans son intégration dynamique des connaissances. Notre étude plaide pour le développement de benchmarks et de stratégies d'entraînement plus robustes, allant au-delà de l'alignement superficiel et mettant l'accent sur une génération multimodale ancrée dans le contexte et le raisonnement.
Récemment, les systèmes à réflexion lente comme GPT-o1 et DeepSeek-R1 ont démontré un grand potentiel dans la résolution de problèmes complexes grâce à une réflexion explicite. Ils surpassent significativement les meilleurs modèles à réflexion rapide, tels que GPT-4o, sur divers benchmarks en mathématiques et en sciences. Cependant, leurs capacités de raisonnement multimodal restent comparables à celles des modèles à réflexion rapide. Par exemple, les performances de GPT-o1 sur des benchmarks comme MathVista, MathVerse et MathVision sont similaires à celles des modèles à réflexion rapide. Dans cet article, nous visons à améliorer les capacités de réflexion lente des modèles vision-langage en utilisant l'apprentissage par renforcement (sans recourir à la distillation) pour faire progresser l'état de l'art. Tout d'abord, nous adaptons l'algorithme GRPO avec une nouvelle technique appelée Selective Sample Replay (SSR) pour résoudre le problème de la disparition des avantages. Bien que cette approche offre de solides performances, les modèles entraînés par RL qui en résultent présentent une réflexion ou une auto-vérification limitée. Pour encourager davantage la réflexion lente, nous introduisons le Forced Rethinking, qui ajoute un déclencheur de reconsidération textuelle à la fin des déploiements initiaux dans l'entraînement RL, imposant explicitement une étape de raisonnement par auto-réflexion. En combinant ces deux techniques, notre modèle, VL-Rethinker, améliore les scores de l'état de l'art sur MathVista, MathVerse et MathVision pour atteindre respectivement 80,3 %, 61,8 % et 43,9 %. VL-Rethinker atteint également le SoTA open-source sur des benchmarks multidisciplinaires tels que MMMU-Pro, EMMA et MEGA-Bench, réduisant ainsi l'écart avec GPT-o1.
Nous présentons FUSION, une famille de modèles de langage multimodaux de grande taille (MLLMs) basée sur un paradigme d'alignement et d'intégration complète entre vision et langage. Contrairement aux méthodes existantes qui reposent principalement sur une interaction tardive entre modalités lors du décodage des LLMs, notre approche réalise une intégration profonde et dynamique tout au long du pipeline de traitement. Pour ce faire, nous proposons le Text-Guided Unified Vision Encoding, qui intègre des informations textuelles dans l'encodage visuel pour parvenir à une intégration au niveau des pixels. Nous concevons également le Context-Aware Recursive Alignment Decoding, qui agrège de manière récursive les caractéristiques visuelles en fonction du contexte textuel pendant le décodage, permettant ainsi une intégration sémantique fine au niveau des questions. Pour guider la cartographie des caractéristiques et atténuer les divergences entre modalités, nous développons le Dual-Supervised Semantic Mapping Loss. Par ailleurs, nous construisons un ensemble de données de questions-réponses (QA) synthétisées et pilotées par le langage grâce à une nouvelle méthode de synthèse de données, en privilégiant des paires QA de haute qualité pour optimiser l'intégration des caractéristiques guidées par le texte. Sur ces bases, nous entraînons FUSION à deux échelles—3B, 8B—et démontrons que notre approche d'intégration complète des modalités surpasse significativement les méthodes existantes avec seulement 630 tokens visuels. Notamment, FUSION 3B dépasse Cambrian-1 8B et Florence-VL 8B sur la plupart des benchmarks. FUSION 3B continue de surpasser Cambrian-1 8B même lorsqu'il est limité à 300 tokens visuels. Nos études d'ablation montrent que FUSION surpasse LLaVA-NeXT sur plus de la moitié des benchmarks dans la même configuration sans résolution dynamique, soulignant l'efficacité de notre approche. Nous mettons à disposition notre code, les poids des modèles et l'ensemble de données. https://github.com/starriver030515/FUSION
Générer du code de haute qualité capable de résoudre des tâches de programmation complexes est un défi, en particulier avec les modèles basés sur des décodeurs actuels qui produisent des sorties fortement stochastiques. Dans la génération de code, même des erreurs mineures peuvent facilement compromettre l'ensemble de la solution. Exploiter plusieurs solutions échantillonnées peut considérablement améliorer la qualité globale de la sortie. Une méthode efficace pour améliorer la génération de code consiste à associer un modèle de génération de code à un modèle de reranking, qui sélectionne la meilleure solution parmi les échantillons générés. Nous proposons une nouvelle approche d'auto-apprentissage itératif pour entraîner des modèles de reranking en utilisant l'Optimisation de Politique Proximale (PPO), visant à améliorer à la fois la précision du reranking et le processus global de génération de code. Contrairement aux approches traditionnelles de PPO, où l'accent est mis sur l'optimisation d'un modèle génératif avec un modèle de récompense, notre approche met l'accent sur le développement d'un modèle robuste de récompense/reranking. Ce modèle améliore la qualité du code généré grâce au reranking et traite les problèmes et erreurs que le modèle de récompense pourrait négliger lors de l'alignement PPO avec le reranker. Notre méthode affine itérativement l'ensemble de données d'entraînement en réévaluant les sorties, en identifiant des exemples négatifs à score élevé, et en les intégrant dans la boucle d'entraînement, ce qui améliore les performances du modèle. Notre évaluation sur le jeu de données MultiPL-E démontre que notre modèle de 13,4 milliards de paramètres surpasse un modèle de 33 milliards en termes de qualité de génération de code tout en étant trois fois plus rapide. De plus, il atteint des performances comparables à GPT-4 et les dépasse dans un langage de programmation.
La compréhension de vidéos à long contexte dans les modèles de langage multimodaux de grande taille (MLLMs) fait face à un défi critique : équilibrer l'efficacité computationnelle avec la rétention de motifs spatio-temporels fins. Les approches existantes (par exemple, l'échantillonnage parcimonieux, l'échantillonnage dense à faible résolution, et la compression de tokens) souffrent d'une perte significative d'informations dans les dynamiques temporelles, les détails spatiaux, ou les interactions subtiles, en particulier dans les vidéos avec des mouvements complexes ou des résolutions variables. Pour résoudre ce problème, nous proposons Mavors, un nouveau cadre qui introduit une représentation vidéo multi-granularité pour la modélisation holistique de vidéos longues. Plus précisément, Mavors encode directement le contenu brut de la vidéo en représentations latentes grâce à deux composants clés : 1) un encodeur visuel intra-tronçon (IVE) qui préserve les caractéristiques spatiales à haute résolution via des convolutions 3D et des Vision Transformers, et 2) un agrégateur de caractéristiques inter-tronçons (IFA) qui établit la cohérence temporelle entre les tronçons en utilisant une modélisation de dépendance basée sur des transformers avec des encodages de position rotatifs au niveau des tronçons. De plus, le cadre unifie la compréhension d'images et de vidéos en traitant les images comme des vidéos à une seule image via une décomposition sous-image. Les expériences sur divers benchmarks démontrent la supériorité de Mavors dans le maintien de la fidélité spatiale et de la continuité temporelle, surpassant significativement les méthodes existantes dans les tâches nécessitant un raisonnement spatio-temporel fin.
Les agents web permettent aux utilisateurs d'effectuer des tâches sur les navigateurs via des interactions en langage naturel. L'évaluation des trajectoires des agents web est un problème important, car elle nous aide à déterminer si l'agent a accompli les tâches avec succès. Les méthodes basées sur des règles sont largement utilisées à cette fin, mais elles sont difficiles à étendre à de nouvelles tâches et ne reconnaissent pas toujours les trajectoires réussies. Nous pourrions obtenir une précision plus élevée grâce à une évaluation humaine, mais le processus serait nettement plus lent et plus coûteux. Les évaluations automatiques avec des LLM pourraient éviter les difficultés liées à la conception de nouvelles règles et à l'annotation manuelle des trajectoires, permettant une évaluation plus rapide et économique. Cependant, il n'est pas clair à quel point elles sont efficaces pour évaluer les agents web. À cette fin, nous proposons AgentRewardBench, le premier benchmark pour évaluer l'efficacité des juges LLM dans l'évaluation des agents web. AgentRewardBench contient 1302 trajectoires réparties sur 5 benchmarks et 4 LLM. Chaque trajectoire dans AgentRewardBench est examinée par un expert, qui répond à des questions concernant le succès, les effets secondaires et la répétitivité de l'agent. En utilisant notre benchmark, nous évaluons 12 juges LLM et constatons qu'aucun LLM ne se distingue sur tous les benchmarks. Nous constatons également que l'évaluation basée sur des règles utilisée par les benchmarks courants a tendance à sous-estimer le taux de réussite des agents web, mettant en évidence une faiblesse clé de l'évaluation basée sur des règles et la nécessité de développer des évaluations automatiques plus flexibles. Nous publions le benchmark à l'adresse suivante : https://agent-reward-bench.github.io
Nous présentons S1-Bench, un nouveau benchmark conçu pour évaluer la performance des Modèles de Raisonnement à Grande Échelle (LRMs) sur des tâches simples favorisant la pensée intuitive de système 1 plutôt que le raisonnement délibératif de système 2. Bien que les LRMs aient réalisé des avancées significatives dans des tâches de raisonnement complexe grâce à des chaînes de pensée explicites, leur dépendance à une pensée analytique profonde pourrait limiter leurs capacités de pensée de système 1. De plus, il manque actuellement un benchmark pour évaluer la performance des LRMs dans des tâches nécessitant de telles capacités. Pour combler cette lacune, S1-Bench propose un ensemble de questions simples, diversifiées et naturellement claires, couvrant plusieurs domaines et langues, spécifiquement conçues pour évaluer la performance des LRMs dans ces tâches. Notre évaluation approfondie de 22 LRMs révèle des tendances significativement moins efficaces, avec des sorties en moyenne 15,5 fois plus longues que celles des petits LLMs traditionnels. De plus, les LRMs identifient souvent les bonnes réponses tôt mais poursuivent une délibération inutile, certains modèles produisant même de nombreuses erreurs. Ces résultats mettent en lumière les schémas de raisonnement rigides des LRMs actuels et soulignent le développement substantiel nécessaire pour atteindre des capacités de pensée à double système équilibrées, capables de s'adapter de manière appropriée à la complexité des tâches.
Les récents progrès dans l'apprentissage par renforcement (RL) appliqué au post-entraînement ont conduit à des améliorations notables des grands modèles de langage (LLM), en particulier dans le renforcement de leurs capacités de raisonnement pour traiter des tâches complexes. Cependant, la plupart des méthodes existantes considèrent les données d'entraînement comme un ensemble unifié, négligeant le fait que l'entraînement moderne des LLM implique souvent un mélange de données provenant de distributions diverses, variant à la fois en source et en difficulté. Cette hétérogénéité introduit un défi majeur : comment planifier de manière adaptative l'entraînement à travers ces distributions pour optimiser l'efficacité de l'apprentissage. Dans cet article, nous présentons un cadre d'apprentissage curriculaire fondé sur la notion d'apprenabilité au niveau des distributions. Notre idée centrale est que l'amplitude des avantages de la politique reflète à quel point un modèle peut encore bénéficier d'un entraînement supplémentaire sur une distribution donnée. Sur cette base, nous proposons un cadre d'apprentissage curriculaire au niveau des distributions pour le post-entraînement des LLM basé sur le RL, qui exploite le principe de la borne supérieure de confiance (UCB) pour ajuster dynamiquement les probabilités d'échantillonnage pour différentes distributions. Cette approche privilégie les distributions présentant soit un avantage moyen élevé (exploitation) soit un faible nombre d'échantillons (exploration), aboutissant à un plan d'entraînement adaptatif et théoriquement fondé. Nous instancions notre cadre d'apprentissage curriculaire avec GRPO comme algorithme de RL sous-jacent et démontrons son efficacité sur des ensembles de données de raisonnement logique avec plusieurs niveaux de difficulté et sources. Nos expériences montrent que notre cadre améliore significativement la vitesse de convergence et les performances finales, mettant en lumière la valeur des stratégies curriculaires conscientes des distributions dans le post-entraînement des LLM. Code : https://github.com/ZhentingWang/DUMP.
Les représentations d'images sont souvent évaluées à travers des protocoles disjoints et spécifiques à des tâches, conduisant à une compréhension fragmentée des capacités des modèles. Par exemple, il n'est pas clair si un modèle d'embedding d'images performant en clustering d'images est également efficace pour retrouver des images pertinentes à partir d'un texte donné. Nous introduisons le Massive Image Embedding Benchmark (MIEB) pour évaluer les performances des modèles d'embedding d'images et d'images-texte sur le spectre le plus large à ce jour. MIEB couvre 38 langues à travers 130 tâches individuelles, que nous regroupons en 8 catégories principales. Nous évaluons 50 modèles sur notre benchmark, constatant qu'aucune méthode ne domine toutes les catégories de tâches. Nous révélons des capacités cachées dans les modèles de vision avancés, comme leur représentation visuelle précise des textes, ainsi que leurs limites dans les encodages entrelacés et l'appariement d'images et de textes en présence de facteurs confondants. Nous montrons également que la performance des encodeurs de vision sur MIEB est fortement corrélée à leur performance lorsqu'ils sont utilisés dans des modèles de langage multimodaux de grande taille. Notre code, dataset et classement sont disponibles publiquement à l'adresse https://github.com/embeddings-benchmark/mteb.
La simulation sociale transforme la recherche traditionnelle en sciences sociales en modélisant le comportement humain à travers les interactions entre des individus virtuels et leur environnement. Avec les récentes avancées des modèles de langage de grande taille (LLMs), cette approche a montré un potentiel croissant pour capturer les différences individuelles et prédire les comportements de groupe. Cependant, les méthodes existantes font face à des défis d'alignement liés à l'environnement, aux utilisateurs cibles, aux mécanismes d'interaction et aux modèles comportementaux. Pour répondre à ces enjeux, nous introduisons SocioVerse, un modèle de monde piloté par des agents LLM pour la simulation sociale. Notre cadre intègre quatre composants puissants d'alignement et un bassin d'utilisateurs de 10 millions d'individus réels. Pour valider son efficacité, nous avons mené des expériences de simulation à grande échelle dans trois domaines distincts : la politique, l'actualité et l'économie. Les résultats démontrent que SocioVerse peut refléter la dynamique des populations à grande échelle tout en assurant diversité, crédibilité et représentativité grâce à des procédures standardisées et des ajustements manuels minimaux.
Les agents d'interface graphique (GUI) offrent des solutions multiplateformes pour automatiser des tâches numériques complexes, avec un potentiel significatif de transformation des flux de travail de productivité. Cependant, leurs performances sont souvent limitées par la rareté des données de trajectoire de haute qualité. Pour pallier cette limitation, nous proposons d'entraîner des modèles de vision et langage (VLMs) sur des tâches riches en données et intensives en raisonnement lors d'une étape d'entraînement intermédiaire dédiée, puis d'examiner comment l'intégration de ces tâches facilite la généralisation aux scénarios de planification GUI. Plus précisément, nous explorons une gamme de tâches avec des données d'ajustement d'instructions facilement disponibles, incluant la perception GUI, le raisonnement multimodal et le raisonnement textuel. À travers des expériences approfondies sur 11 tâches d'entraînement intermédiaire, nous démontrons que : (1) La généralisation des tâches s'avère très efficace, apportant des améliorations substantielles dans la plupart des configurations. Par exemple, le raisonnement mathématique multimodal améliore les performances sur AndroidWorld de 6,3 % en valeur absolue. Fait remarquable, les données mathématiques textuelles seules améliorent significativement les performances des agents GUI web, avec une amélioration de 5,6 % sur WebArena et de 5,4 % sur AndroidWorld, soulignant une généralisation intermodale notable des domaines textuels aux domaines visuels ; (2) Contrairement aux hypothèses précédentes, les données de perception GUI - auparavant considérées comme étroitement alignées avec les tâches des agents GUI et largement utilisées pour l'entraînement - ont un impact relativement limité sur les performances finales ; (3) En nous appuyant sur ces insights, nous identifions les tâches d'entraînement intermédiaire les plus efficaces et constituons des ensembles de données mixtes optimisés, aboutissant à des gains de performance absolus de 8,0 % sur WebArena et de 12,2 % sur AndroidWorld. Notre travail fournit des insights précieux sur le transfert de connaissances interdomaines pour les agents GUI et propose une approche pratique pour relever les défis de la rareté des données dans ce domaine émergent. Le code, les données et les modèles seront disponibles à l'adresse https://github.com/hkust-nlp/GUIMid.
Récemment, l'amélioration des capacités de raisonnement des grands modèles multimodaux (LMM) grâce à l'apprentissage par renforcement a réalisé des progrès significatifs. Cependant, la plupart des travaux existants se basent sur des ensembles de données fortement axés sur le raisonnement, tels que les mathématiques et le code, et les chercheurs choisissent généralement des modèles à grande échelle comme fondation. Nous soutenons que l'exploration des capacités de raisonnement des modèles à petite échelle reste précieuse pour les chercheurs disposant de ressources computationnelles limitées. De plus, permettre aux modèles d'expliquer leurs processus de raisonnement sur des ensembles de données générales de questions-réponses est tout aussi significatif. Par conséquent, nous présentons le modèle de raisonnement vidéo à petite échelle TinyLLaVA-Video-R1. Basé sur TinyLLaVA-Video, un modèle de compréhension vidéo entraîné de manière traçable avec pas plus de 4 milliards de paramètres, il démontre non seulement des capacités de raisonnement et de réflexion nettement améliorées après l'utilisation de l'apprentissage par renforcement sur des ensembles de données générales de questions-réponses vidéo, mais présente également la caractéristique émergente des "moments eurêka". En outre, nous partageons une série de résultats expérimentaux, visant à fournir des insights pratiques pour l'exploration future des capacités de raisonnement (réflexion) vidéo dans les modèles à petite échelle. Il est disponible à l'adresse suivante : https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.
L'IA joue un rôle de plus en plus central dans la transformation des méthodes de découverte scientifique. Nous présentons The AI Scientist-v2, un système agentique de bout en bout capable de produire le premier article d'atelier entièrement généré par l'IA et accepté par un processus de relecture par les pairs. Ce système formule itérativement des hypothèses scientifiques, conçoit et exécute des expériences, analyse et visualise les données, et rédige de manière autonome des manuscrits scientifiques. Par rapport à son prédécesseur (v1, Lu et al., 2024 arXiv:2408.06292), The AI Scientist-v2 élimine la dépendance aux modèles de code rédigés par l'homme, généralise efficacement à travers divers domaines de l'apprentissage automatique, et exploite une nouvelle méthodologie de recherche arborescente agentique progressive gérée par un agent dédié à la gestion des expériences. De plus, nous avons amélioré le composant de relecture par l'IA en intégrant une boucle de rétroaction basée sur un modèle vision-langage (VLM) pour l'affinement itératif du contenu et de l'esthétique des figures. Nous avons évalué The AI Scientist-v2 en soumettant trois manuscrits entièrement autonomes à un atelier de l'ICLR soumis à relecture par les pairs. Notamment, un manuscrit a obtenu des scores suffisamment élevés pour dépasser le seuil moyen d'acceptation humaine, marquant ainsi la première occurrence d'un article entièrement généré par l'IA ayant réussi à naviguer avec succès dans un processus de relecture par les pairs. Cette réalisation met en lumière la capacité croissante de l'IA à mener tous les aspects de la recherche scientifique. Nous anticipons que les avancées futures dans les technologies de découverte scientifique autonome auront un impact profond sur la génération de connaissances humaines, permettant une scalabilité sans précédent dans la productivité de la recherche et accélérant significativement les percées scientifiques, bénéficiant ainsi grandement la société dans son ensemble. Nous avons ouvert le code source à l'adresse https://github.com/SakanaAI/AI-Scientist-v2 pour favoriser le développement futur de cette technologie transformative. Nous discutons également du rôle de l'IA dans la science, y compris la sécurité de l'IA.
Les scientifiques infèrent souvent des procédures abstraites à partir d'instances spécifiques de problèmes et utilisent ces abstractions pour générer de nouvelles instances connexes. Par exemple, les programmes encodant les règles et propriétés formelles d'un système se sont avérés utiles dans des domaines allant de l'apprentissage par renforcement (environnements procéduraux) à la physique (moteurs de simulation). Ces programmes peuvent être vus comme des fonctions qui produisent différentes sorties en fonction de leurs paramétrages (par exemple, la configuration d'un monde en grille ou les conditions physiques initiales). Nous introduisons le terme EFA (Abstraction Fonctionnelle Exécutable) pour désigner de tels programmes dans le contexte des problèmes mathématiques. Des constructions similaires aux EFA se sont révélées utiles pour le raisonnement mathématique en tant que générateurs de problèmes pour tester la robustesse des modèles. Cependant, les travaux antérieurs se sont limités aux abstractions pour les mathématiques de niveau primaire (dont les règles simples sont faciles à encoder dans des programmes), tandis que la génération d'EFA pour les mathématiques avancées a jusqu'à présent nécessité une ingénierie humaine. Nous explorons la construction automatique d'EFA pour des problèmes de mathématiques avancées. Nous formalisons la tâche de construction automatique d'EFA comme une tâche de synthèse de programmes, et développons EFAGen, qui conditionne un modèle de langage (LLM) sur un problème mathématique de départ et sa solution étape par étape pour générer des programmes EFA candidats fidèles à la classe généralisée de problèmes et de solutions sous-jacente au problème de départ. De plus, nous formalisons les propriétés que tout EFA valide doit posséder en termes de tests unitaires exécutables, et montrons comment ces tests peuvent être utilisés comme récompenses vérifiables pour entraîner les LLM à devenir de meilleurs rédacteurs d'EFA. Nous démontrons que les EFA construits par EFAGen se comportent de manière rationnelle en restant fidèles aux problèmes de départ, produisent des variations de problèmes apprenables, et qu'EFAGen peut inférer des EFA à partir de multiples sources diversifiées de problèmes de mathématiques de niveau compétition. Enfin, nous montrons les utilisations en aval des EFA écrits par des modèles, par exemple pour trouver des variations de problèmes plus difficiles ou plus faciles à résoudre pour un apprenant, ainsi que pour la génération de données.
Un raisonnement efficace est crucial pour résoudre des problèmes mathématiques complexes. Les récents modèles de langage de grande taille (LLMs) ont amélioré les performances en augmentant le calcul au moment du test grâce à un raisonnement en chaîne de pensée longue. Cependant, les modèles basés sur les transformers sont intrinsèquement limités dans l'extension de la longueur du contexte en raison de leur complexité computationnelle quadratique et de leurs besoins en mémoire linéaire. Dans cet article, nous introduisons un nouveau modèle de raisonnement hybride RNN linéaire, M1, construit sur l'architecture Mamba, qui permet une inférence efficace en mémoire. Notre approche tire parti d'un processus de distillation à partir de modèles de raisonnement existants et est encore améliorée par un entraînement par renforcement (RL). Les résultats expérimentaux sur les benchmarks AIME et MATH montrent que M1 surpasse non seulement les précédents modèles RNN linéaires, mais égalise également les performances des modèles de raisonnement distillés Deepseek R1 de pointe à une échelle similaire. Nous comparons également notre vitesse de génération avec un moteur d'inférence généraliste très performant, vLLM, et observons une accélération de plus de 3x par rapport à un transformer de même taille. Avec cette accélération du débit, nous sommes en mesure d'atteindre une précision plus élevée par rapport aux modèles de raisonnement transformer distillés DeepSeek R1 sous un budget de temps de génération fixe en utilisant un vote d'auto-cohérence. Globalement, nous introduisons un modèle de raisonnement hybride Mamba et proposons une approche plus efficace pour mettre à l'échelle la génération au moment du test en utilisant l'auto-cohérence ou un raisonnement en chaîne de pensée longue.
Les récentes avancées dans les modèles de vision et de langage à grande échelle ont démontré des capacités remarquables. Cependant, ils échouent souvent face à des tâches de raisonnement complexes que les humains abordent généralement à l'aide de supports visuels et d'une réflexion délibérée et étape par étape. Bien que les méthodes existantes aient exploré une pensée lente basée sur le texte ou une assistance visuelle rudimentaire, elles ne parviennent pas à capturer la nature complexe et entrelacée des processus de raisonnement visuel-verbal humains. Pour surmonter ces limites et inspirés par les mécanismes de la pensée lente dans la cognition humaine, nous introduisons VisuoThink, un nouveau cadre qui intègre de manière fluide les domaines visuo-spatiaux et linguistiques. VisuoThink facilite la pensée lente multimodale en permettant un raisonnement visuel-textuel progressif et intègre une mise à l'échelle au moment du test grâce à une recherche arborescente prospective. Des expériences approfondies démontrent que VisuoThink améliore significativement les capacités de raisonnement via une mise à l'échelle au moment de l'inférence, même sans ajustement fin, atteignant des performances de pointe dans les tâches impliquant la géométrie et le raisonnement spatial.
Les LLM récents ont considérablement amélioré leurs capacités de raisonnement, principalement en incluant un processus de réflexion explicite et détaillé dans la génération. Dans cet article, nous nous interrogeons sur la nécessité de cette réflexion explicite. En utilisant le modèle de pointe DeepSeek-R1-Distill-Qwen, nous constatons que contourner le processus de réflexion via un simple prompt, appelé NoThinking, peut être étonnamment efficace. En contrôlant le nombre de tokens, NoThinking surpasse la réflexion explicite sur un ensemble diversifié de sept jeux de données de raisonnement complexes—incluant la résolution de problèmes mathématiques, la démonstration de théorèmes formels et le codage—particulièrement dans des contextes à budget limité, par exemple 51,3 contre 28,9 sur ACM 23 avec 700 tokens. Notamment, la performance de NoThinking devient plus compétitive avec pass@k à mesure que k augmente. Sur la base de cette observation, nous démontrons qu'une approche de mise à l'échelle parallèle utilisant NoThinking pour générer N sorties indépendamment et les agréger est très efficace. Pour l'agrégation, nous utilisons des vérificateurs spécifiques à la tâche lorsqu'ils sont disponibles, ou nous appliquons des stratégies simples de meilleur-de-N, comme la sélection basée sur la confiance. Notre méthode surpasse une gamme de modèles de référence avec une latence similaire utilisant la réflexion explicite, et est comparable à la réflexion explicite avec une latence significativement plus longue (jusqu'à 9 fois). Ensemble, nos recherches encouragent une réévaluation de la nécessité des processus de réflexion prolongés, tout en établissant une référence compétitive pour atteindre des performances de raisonnement solides dans des contextes à budget limité ou à faible latence grâce à la mise à l'échelle parallèle.
La découverte d'équations scientifiques est une tâche fondamentale dans l'histoire du progrès scientifique, permettant de dériver les lois régissant les phénomènes naturels. Récemment, les modèles de langage de grande taille (LLMs) ont suscité un intérêt pour cette tâche en raison de leur potentiel à exploiter les connaissances scientifiques intégrées pour la génération d'hypothèses. Cependant, évaluer les véritables capacités de découverte de ces méthodes reste un défi, car les benchmarks existants reposent souvent sur des équations courantes qui peuvent être mémorisées par les LLMs, conduisant à des métriques de performance gonflées qui ne reflètent pas la découverte. Dans cet article, nous présentons LLM-SRBench, un benchmark complet avec 239 problèmes complexes répartis dans quatre domaines scientifiques, spécifiquement conçu pour évaluer les méthodes de découverte d'équations scientifiques basées sur les LLMs tout en empêchant la mémorisation triviale. Notre benchmark comprend deux catégories principales : LSR-Transform, qui transforme des modèles physiques courants en représentations mathématiques moins courantes pour tester le raisonnement au-delà des formes mémorisées, et LSR-Synth, qui introduit des problèmes synthétiques axés sur la découverte nécessitant un raisonnement basé sur les données. À travers une évaluation approfondie de plusieurs méthodes de pointe, utilisant à la fois des LLMs ouverts et fermés, nous constatons que le système le plus performant à ce jour n'atteint qu'une précision symbolique de 31,5 %. Ces résultats mettent en lumière les défis de la découverte d'équations scientifiques, positionnant LLM-SRBench comme une ressource précieuse pour les recherches futures.
Les grands modèles de langage apprennent et continuent d'apprendre grâce à l'accumulation de mises à jour basées sur les gradients, mais la manière dont des éléments individuels de nouvelles informations influencent les connaissances existantes, conduisant à la fois à une généralisation bénéfique et à des hallucinations problématiques, reste mal comprise. Nous démontrons que lors de l'apprentissage de nouvelles informations, les LLM présentent un effet de "préparation" : l'apprentissage d'un nouveau fait peut amener le modèle à appliquer de manière inappropriée cette connaissance dans des contextes non liés. Pour étudier systématiquement ce phénomène, nous introduisons "Outlandish", un ensemble de données soigneusement constitué de 1320 échantillons de textes variés conçus pour explorer comment les nouvelles connaissances s'infiltrent dans la base de connaissances existante d'un LLM. En utilisant cet ensemble de données, nous montrons que le degré de préparation après l'apprentissage de nouvelles informations peut être prédit en mesurant la probabilité des tokens des mots clés avant l'apprentissage. Cette relation se vérifie de manière robuste à travers différentes architectures de modèles (PALM-2, Gemma, Llama), tailles et étapes d'entraînement. Enfin, nous développons deux techniques novatrices pour moduler la manière dont les nouvelles connaissances affectent le comportement existant du modèle : (1) une stratégie d'augmentation de texte par "pierres angulaires" et (2) une méthode d'élagage des mises à jour "ignore-k". Ces approches réduisent les effets indésirables de préparation de 50 à 95 % tout en préservant la capacité du modèle à apprendre de nouvelles informations. Nos résultats fournissent à la fois des insights empiriques sur la manière dont les LLM apprennent et des outils pratiques pour améliorer la spécificité de l'insertion de connaissances dans les modèles de langage. Matériels supplémentaires : https://sunchipsster1.github.io/projects/outlandish/
L'essor des personnages IA pilotés par des LLM soulève des préoccupations en matière de sécurité, en particulier pour les utilisateurs humains vulnérables souffrant de troubles psychologiques. Pour répondre à ces risques, nous proposons EmoAgent, un cadre d'IA multi-agents conçu pour évaluer et atténuer les dangers pour la santé mentale dans les interactions humain-IA. EmoAgent se compose de deux éléments : EmoEval simule des utilisateurs virtuels, y compris ceux représentant des individus psychologiquement vulnérables, afin d'évaluer les changements de santé mentale avant et après les interactions avec des personnages IA. Il utilise des outils d'évaluation psychologique et psychiatrique cliniquement validés (PHQ-9, PDI, PANSS) pour évaluer les risques mentaux induits par les LLM. EmoGuard sert d'intermédiaire, surveillant l'état mental des utilisateurs, prédisant les dommages potentiels et fournissant des retours correctifs pour atténuer les risques. Des expériences menées sur des chatbots populaires basés sur des personnages montrent que des dialogues émotionnellement engageants peuvent entraîner une détérioration psychologique chez les utilisateurs vulnérables, avec une détérioration de l'état mental dans plus de 34,4 % des simulations. EmoGuard réduit significativement ces taux de détérioration, soulignant son rôle dans la garantie d'interactions IA-humain plus sûres. Notre code est disponible à l'adresse : https://github.com/1akaman/EmoAgent
La légende 3D, qui vise à décrire le contenu de scènes 3D en langage naturel, reste un défi majeur en raison de la sparsité inhérente des nuages de points et de l'alignement intermodal faible des méthodes existantes. Pour relever ces défis, nous proposons 3D CoCa, un nouveau cadre unifié qui combine de manière fluide l'apprentissage contrastif vision-langage avec la génération de légendes 3D dans une architecture unique. Notre approche exploite un modèle CLIP vision-langage figé pour fournir des préconnaissances sémantiques riches, un encodeur de scène 3D spatialement conscient pour capturer le contexte géométrique, et un décodeur multimodal pour générer des légendes descriptives. Contrairement aux méthodes en deux étapes précédentes qui reposent sur des propositions d'objets explicites, 3D CoCa optimise conjointement les objectifs contrastifs et de légendage dans un espace de caractéristiques partagé, éliminant ainsi le besoin de détecteurs externes ou de propositions artisanales. Ce paradigme d'entraînement conjoint permet un raisonnement spatial plus robuste et un ancrage sémantique plus riche en alignant les représentations 3D et textuelles. Des expériences approfondies sur les benchmarks ScanRefer et Nr3D montrent que 3D CoCa surpasse significativement les méthodes actuelles de pointe avec des gains de 10,2 % et 5,76 % en CIDEr à 0,5IoU, respectivement. Le code sera disponible à l'adresse https://github.com/AIGeeksGroup/3DCoCa.
Les récents progrès des modèles de langage à grande échelle (LLMs) leur ont permis d'approcher des capacités de persuasion comparables à celles des humains. Cependant, ce potentiel soulève également des inquiétudes concernant les risques de sécurité liés à la persuasion pilotée par les LLMs, en particulier leur capacité à exercer une influence contraire à l'éthique par la manipulation, la tromperie, l'exploitation des vulnérabilités et de nombreuses autres tactiques nuisibles. Dans ce travail, nous présentons une investigation systématique de la sécurité de la persuasion par les LLMs à travers deux aspects critiques : (1) si les LLMs rejettent de manière appropriée les tâches de persuasion contraires à l'éthique et évitent les stratégies non éthiques lors de leur exécution, y compris dans les cas où l'objectif initial de persuasion semble éthiquement neutre, et (2) comment les facteurs d'influence tels que les traits de personnalité et les pressions externes affectent leur comportement. À cette fin, nous introduisons PersuSafety, le premier cadre complet pour l'évaluation de la sécurité de la persuasion, qui se compose de trois étapes, à savoir la création de scènes de persuasion, la simulation de conversations persuasives et l'évaluation de la sécurité de la persuasion. PersuSafety couvre 6 sujets de persuasion contraires à l'éthique et 15 stratégies non éthiques courantes. À travers des expériences approfondies sur 8 LLMs largement utilisés, nous observons des préoccupations significatives en matière de sécurité pour la plupart des LLMs, notamment leur incapacité à identifier les tâches de persuasion nuisibles et leur recours à diverses stratégies de persuasion contraires à l'éthique. Notre étude appelle à une attention accrue pour améliorer l'alignement de la sécurité dans les conversations progressives et orientées vers un objectif, telles que la persuasion.
Les grands modèles de langage (LLM) dotés de capacités de raisonnement ont récemment démontré des performances impressionnantes dans des tâches logiques et mathématiques complexes. Cependant, leur efficacité dans l'évaluation de la génération de langage naturel reste inexplorée. Cette étude compare systématiquement les LLM basés sur le raisonnement (DeepSeek-R1 et OpenAI o3) à leurs homologues sans raisonnement dans des tâches d'évaluation de la traduction automatique (MT) et de la synthèse de texte (TS). Nous évaluons huit modèles appartenant à trois catégories architecturales, incluant des modèles de raisonnement de pointe, leurs variantes distillées (allant de 8B à 70B paramètres), et des LLM conventionnels équivalents sans raisonnement. Nos expériences sur les benchmarks WMT23 et SummEval révèlent que les avantages des capacités de raisonnement dépendent fortement du modèle et de la tâche : tandis que les modèles OpenAI o3-mini montrent des améliorations de performance constantes avec une intensité de raisonnement accrue, DeepSeek-R1 sous-performe par rapport à sa variante sans raisonnement, à l'exception de certains aspects de l'évaluation TS. L'analyse de corrélation démontre qu'une utilisation accrue des tokens de raisonnement est positivement corrélée à la qualité de l'évaluation dans les modèles o3-mini. De plus, nos résultats montrent que la distillation des capacités de raisonnement maintient des performances raisonnables dans les modèles de taille moyenne (32B) mais se dégrade considérablement dans les variantes plus petites (8B). Ce travail fournit la première évaluation complète des LLM de raisonnement pour l'évaluation de la génération de langage naturel et offre des insights sur leur utilisation pratique.
Le raisonnement multimodal, qui intègre des indices linguistiques et visuels dans la résolution de problèmes et la prise de décision, est un aspect fondamental de l'intelligence humaine et une étape cruciale vers l'intelligence artificielle générale. Cependant, l'évaluation des capacités de raisonnement multimodal dans les modèles de langage multimodaux de grande taille (MLLMs) reste insuffisante. La plupart des benchmarks de raisonnement existants sont limités par une taille de données restreinte, une couverture de domaines étroite et une distribution de connaissances non structurée. Pour combler ces lacunes, nous introduisons MDK12-Bench, un benchmark multidisciplinaire évaluant les capacités de raisonnement des MLLMs via des examens réels de niveau K-12. Couvrant six disciplines (mathématiques, physique, chimie, biologie, géographie et informatique), notre benchmark comprend 140 000 instances de raisonnement de niveaux de difficulté variés, allant de l'école primaire à la 12e année. Il propose 6 827 annotations de points de connaissances au niveau des instances, basées sur une structure de connaissances bien organisée, des explications détaillées des réponses, des étiquettes de difficulté et des partitions interannuelles, offrant ainsi une plateforme robuste pour une évaluation complète. De plus, nous présentons un nouveau cadre d'évaluation dynamique pour atténuer les problèmes de contamination des données en réinitialisant les formes de questions, les types de questions et les styles d'images pendant l'évaluation. Une expérimentation approfondie sur MDK12-Bench révèle les limites significatives des MLLMs actuels en matière de raisonnement multimodal. Les résultats de notre benchmark fournissent des insights pour le développement des modèles de nouvelle génération. Nos données et codes sont disponibles à l'adresse https://github.com/LanceZPF/MDK12.
Pour réduire les coûts de développement et permettre une intégration transparente entre les composants potentiels constituant une application d'IA générative, le Protocole de Contexte de Modèle (Model Context Protocol, MCP) (Anthropic, 2024) a récemment été publié et largement adopté. Le MCP est un protocole ouvert qui standardise les appels d'API aux grands modèles de langage (LLMs), aux sources de données et aux outils agentiques. En connectant plusieurs serveurs MCP, chacun défini avec un ensemble d'outils, de ressources et d'invites, les utilisateurs peuvent définir des workflows automatisés entièrement pilotés par des LLMs. Cependant, nous montrons que la conception actuelle du MCP présente un large éventail de risques de sécurité pour les utilisateurs finaux. En particulier, nous démontrons que les LLM leaders du secteur peuvent être contraints d'utiliser les outils MCP pour compromettre le système d'un développeur d'IA via diverses attaques, telles que l'exécution de code malveillant, le contrôle d'accès à distance et le vol d'identifiants. Pour atténuer de manière proactive ces attaques et d'autres similaires, nous introduisons un outil d'audit de sécurité, MCPSafetyScanner, le premier outil agentique permettant d'évaluer la sécurité d'un serveur MCP arbitraire. MCPScanner utilise plusieurs agents pour (a) déterminer automatiquement des échantillons adverses en fonction des outils et ressources d'un serveur MCP ; (b) rechercher les vulnérabilités et les correctifs associés à ces échantillons ; et (c) générer un rapport de sécurité détaillant toutes les découvertes. Notre travail met en lumière des problèmes de sécurité graves liés aux workflows agentiques à usage général, tout en fournissant un outil proactif pour auditer la sécurité des serveurs MCP et traiter les vulnérabilités détectées avant le déploiement. L'outil d'audit de serveur MCP décrit, MCPSafetyScanner, est librement disponible à l'adresse suivante : https://github.com/johnhalloran321/mcpSafetyScanner
Les modèles de diffusion pré-entraînés à grande échelle ont produit d'excellents résultats dans le domaine de la génération d'images conditionnelles. Cependant, la restauration des fresques anciennes, en tant que tâche en aval importante dans ce domaine, pose des défis majeurs aux méthodes de restauration basées sur les modèles de diffusion en raison de leurs grandes zones défectueuses et du nombre limité d'échantillons d'entraînement. Les tâches de restauration conditionnelle s'intéressent davantage à savoir si la partie restaurée répond aux normes esthétiques de la restauration de fresques en termes de style global et de détails de jointure, et de telles métriques pour évaluer les compléments d'images heuristiques font défaut dans les recherches actuelles. Nous proposons donc DiffuMural, un mécanisme combiné de convergence multi-échelle et de diffusion collaborative avec ControlNet et une perte de cohérence cyclique pour optimiser la correspondance entre les images générées et le contrôle conditionnel. DiffuMural démontre des capacités exceptionnelles dans la restauration de fresques, en s'appuyant sur des données d'entraînement provenant de 23 grandes fresques de Dunhuang qui présentent une esthétique visuelle cohérente. Le modèle excelle dans la restauration de détails complexes, en atteignant une apparence globale cohérente, et en relevant les défis uniques posés par les fresques incomplètes manquant de fondements factuels. Notre cadre d'évaluation intègre quatre métriques clés pour évaluer quantitativement les fresques incomplètes : l'exactitude factuelle, les détails texturaux, la sémantique contextuelle et la cohérence visuelle holistique. De plus, nous intégrons des évaluations de valeur humaniste pour garantir que les fresques restaurées conservent leur signification culturelle et artistique. Des expériences approfondies valident que notre méthode surpasse les approches de pointe (SOTA) à la fois en termes de métriques qualitatives et quantitatives.