papers.description
L'Embedding de Position Rotatif (RoPE) dans les modèles Transformer présente des limites inhérentes qui affaiblissent l'extrapolation en longueur. Nous réinterprétons la carte d'attention avec l'encodage positionnel comme une carte de caractéristiques bruitée, et proposons l'Encodage Positionnel de Dénuisation (DoPE), une méthode sans apprentissage basée sur l'entropie matricielle tronquée pour détecter les bandes de fréquence aberrantes dans la carte de caractéristiques. En exploitant les caractéristiques de bruit de la carte de caractéristiques, nous la reparamétrons ensuite avec une distribution gaussienne sans paramètre pour atteindre une extrapolation robuste. Notre méthode révèle théoriquement la cause sous-jacente du phénomène de puits d'attention et sa connexion à l'entropie matricielle tronquée. Les expériences sur des tâches d'apprentissage en contexte de type "aiguille dans une botte de foin" et d'apprentissage en contexte à nombreux exemples démontrent que DoPE améliore significativement la précision de récupération et la stabilité du raisonnement dans des contextes étendus (jusqu'à 64K tokens). Les résultats montrent que la stratégie de dénuisation pour les embeddings positionnels atténue efficacement les puits d'attention et restaure des schémas d'attention équilibrés, offrant une solution simple mais puissante pour améliorer la généralisation en longueur. Notre page de projet est disponible à l'adresse : https://The-physical-picture-of-LLMs.github.io
Les récents progrès des modèles multimodaux unifiés (UMM) ont permis des avancées impressionnantes en compréhension et génération visuelles. Cependant, les ensembles de données et benchmarks existants se concentrent principalement sur des interactions à tour unique, ne parvenant pas à capturer la nature multi-tours et contextuelle de la création et de l'édition d'images dans le monde réel. Pour combler cette lacune, nous présentons WEAVE, la première suite dédiée à la compréhension et à la génération intermodales entrelacées en contexte. Notre suite se compose de deux parties complémentaires. WEAVE-100k est un jeu de données à grande échelle contenant 100 000 échantillons entrelacés couvrant plus de 370 000 tours de dialogue et 500 000 images, abordant des tâches de compréhension, d'édition et de génération nécessitant un raisonnement sur le contexte historique. WEAVEBench est un benchmark annoté manuellement comprenant 100 tâches basées sur 480 images, doté d'un cadre d'évaluation hybride par un juge VLM s'appuyant à la fois sur l'image de référence et la combinaison de l'image originale avec les instructions d'édition, qui évalue les capacités des modèles en génération multi-tours, mémoire visuelle et raisonnement sur les connaissances générales dans divers domaines. Les expériences démontrent que l'entraînement sur WEAVE-100k permet d'acquérir des capacités de compréhension visuelle, d'édition d'image et de collaboration compréhension-génération. De plus, il permet aux UMM de développer des capacités émergentes de mémoire visuelle, tandis que les évaluations approfondies sur WEAVEBench révèlent les limitations persistantes et les défis des approches actuelles dans la génération et l'édition d'images multi-tours conscientes du contexte. Nous croyons que WEAVE offre une perspective et une base pour l'étude de la compréhension et de la génération entrelacées en contexte pour la communauté multimodale.
Nous présentons les réseaux à largeur virtuelle (VWN), un cadre qui offre les avantages de représentations plus larges sans engendrer le coût quadratique lié à l'augmentation de la taille de la couche cachée. VWN découple la largeur représentationnelle de la largeur du réseau principal, étendant l'espace d'embedding tout en maintenant le calcul du réseau principal quasi constant. Dans notre expérience à grande échelle, une expansion par 8 accélère l'optimisation de plus de 2 fois pour la prédiction du token suivant et de 3 fois pour la prédiction des 2 tokens suivants. L'avantage s'amplifie au cours de l'entraînement, avec un écart de perte qui s'accroît et un ratio d'accélération de la convergence qui augmente, montrant que VWN est non seulement efficace en tokens, mais aussi de plus en plus performant à grande échelle. De plus, nous identifions une relation d'échelle approximativement log-linéaire entre la largeur virtuelle et la réduction de la perte, offrant une base empirique initiale et une motivation pour explorer la mise à l'échelle en largeur virtuelle comme une nouvelle dimension de l'efficacité des grands modèles.
L'avènement des modèles multimodaux unifiés (UMM) marque un changement de paradigme dans l'intelligence artificielle, passant d'une perception passive à une génération active et transmodale. Malgré leur capacité sans précédent à synthétiser l'information, une lacune critique persiste dans l'évaluation : les benchmarks existants évaluent principalement séparément la compréhension discriminative ou la génération d'images non contrainte, sans mesurer le processus cognitif intégré du raisonnement génératif. Pour combler cette lacune, nous proposons que la construction géométrique constitue un banc d'essai idéal, car elle exige intrinsèquement une fusion de la compréhension langagière et de la génération visuelle précise. Nous présentons GGBench, un benchmark conçu spécifiquement pour évaluer le raisonnement génératif géométrique. Il offre un cadre complet pour diagnostiquer systématiquement la capacité d'un modèle non seulement à comprendre et à raisonner, mais aussi à construire activement une solution, établissant ainsi une norme plus rigoureuse pour la prochaine génération de systèmes intelligents. Site web du projet : https://opendatalab-raiser.github.io/GGBench/.
La programmation d'interfaces utilisateur (UI) constitue un élément central mais extrêmement complexe du développement logiciel moderne. Les progrès récents des modèles de langage visuel (VLM) soulignent le potentiel du codage automatique d'interfaces, mais les approches actuelles se heurtent à deux limites principales : les capacités de codage multimodal restent sous-développées, et les paradigmes en tour unique exploitent peu la rétroaction visuelle itérative. Nous relevons ces défis avec un paradigme interactif d'interface-vers-code qui reflète mieux les flux de travail réels et repousse les limites des performances atteignables. Dans ce cadre, nous présentons UI2Code^N, un modèle de langage visuel entraîné via un pré-entraînement, un affinage et un apprentissage par renforcement par étapes, afin d'obtenir des améliorations fondamentales en codage multimodal. Le modèle unifie trois capacités clés : la génération d'interface à partir de code, l'édition d'interface et le perfectionnement d'interface. Nous explorons également la mise à l'échelle au moment des tests pour une génération interactive, permettant une utilisation systématique de la rétroaction multi-tours. Les expériences sur des benchmarks de conversion interface-vers-code et de polissage d'interface montrent qu'UI2Code^N établit un nouvel état de l'art parmi les modèles open-source et atteint des performances comparables aux modèles propriétaires leaders tels que Claude-4-Sonnet et GPT-5. Notre code et nos modèles sont disponibles à l'adresse https://github.com/zai-org/UI2Code_N.
Le paysage de la génération vidéo est en pleine mutation, passant d'une focalisation sur la production de clips visuellement attrayants à la construction d'environnements virtuels qui soutiennent l'interaction et préservent la plausibilité physique. Ces évolutions pointent vers l'émergence de modèles fondateurs vidéo qui fonctionnent non seulement comme des générateurs visuels, mais aussi comme des modèles mondes implicites – des modèles qui simulent la dynamique physique, les interactions agent-environnement et la planification de tâches qui régissent des mondes réels ou imaginaires. Cette étude propose une vue systématique de cette évolution, en conceptualisant les modèles fondateurs vidéo modernes comme la combinaison de deux composants centraux : un modèle monde implicite et un moteur de rendu vidéo. Le modèle monde encode une connaissance structurée du monde, incluant les lois physiques, la dynamique des interactions et le comportement des agents. Il sert de moteur de simulation latent qui permet un raisonnement visuel cohérent, une cohérence temporelle à long terme et une planification pilotée par des objectifs. Le moteur de rendu vidéo transforme cette simulation latente en observations visuelles réalistes, produisant effectivement des vidéos comme une « fenêtre » sur le monde simulé. Nous retraçons la progression de la génération vidéo à travers quatre générations, où les capacités fondamentales avancent étape par étape, culminant finalement en un modèle monde, construit sur un modèle de génération vidéo, qui incarne une plausibilité physique intrinsèque, une interaction multimodale en temps réel et des capacités de planification couvrant de multiples échelles spatio-temporelles. Pour chaque génération, nous définissons ses caractéristiques principales, mettons en lumière des travaux représentatifs et examinons leurs domaines d'application tels que la robotique, la conduite autonome et les jeux interactifs. Enfin, nous discutons des défis ouverts et des principes de conception pour les modèles monde de prochaine génération, incluant le rôle de l'intelligence des agents dans la formation et l'évaluation de ces systèmes. Une liste actualisée des travaux associés est maintenue à ce lien.
Les Transformers par diffusion, particulièrement pour la génération vidéo, atteignent une qualité remarquable mais souffrent d'une complexité attentionnelle quadratique, entraînant une latence prohibitive. Les méthodes d'accélération existantes sont confrontées à un compromis fondamental : l'estimation dynamique de motifs d'attention clairsemés à chaque étape de débruîtage génère un coût computationnel élevé et des erreurs d'estimation, tandis que les motifs de parcimonie statiques restent fixes et souvent sous-optimaux tout au long du débruîtage. Nous identifions une propriété structurelle clé de l'attention par diffusion : ses motifs de parcimonie présentent une forte cohérence temporelle entre les étapes de débruîtage. Les tuiles jugées non essentielles à l'étape t le restent généralement à l'étape t+δ. En tirant parti de cette observation, nous présentons LiteAttention, une méthode qui exploite la cohérence temporelle pour permettre des sauts de calcul évolutifs à travers la séquence de débruîtage. En marquant les tuiles non essentielles tôt et en propageant les décisions de saut vers l'avant, LiteAttention élimine les calculs d'attention redondants sans les surcoûts de profilage répétés, combinant ainsi l'adaptativité des méthodes dynamiques à l'efficacité des méthodes statiques. Nous implémentons un noyau LiteAttention hautement optimisé sur la base de FlashAttention et démontrons des accélérations substantielles sur des modèles de diffusion vidéo en production, sans dégradation de la qualité. Le code et les détails d'implémentation seront rendus publics.
La découverte de nouveaux Liquides Ioniques (LI) est entravée par des défis majeurs dans la prédiction de leurs propriétés, incluant des données limitées, une faible précision des modèles et des flux de travail fragmentés. En tirant parti de la puissance des Grands Modèles de Langage (LLM), nous présentons AIonopedia, à notre connaissance, le premier agent basé sur un LLM dédié à la découverte de LI. Propulsé par un modèle de fondation multimodal augmenté par LLM pour les LI, AIonopedia permet des prédictions précises des propriétés et intègre une architecture de recherche hiérarchique pour le criblage et la conception moléculaires. Entraîné et évalué sur un nouvel ensemble de données de LI complet et soigneusement constitué, notre modèle démontre des performances supérieures. Complétant ces résultats, des évaluations sur des systèmes rapportés dans la littérature indiquent que l'agent peut réaliser une modification efficace des LI. Au-delà des tests hors ligne, l'efficacité pratique a été confirmée par une validation en laboratoire, où l'agent a démontré des capacités de généralisation exceptionnelles sur des tâches difficiles hors distribution, soulignant sa capacité à accélérer la découverte réelle de LI.
Les modèles de langage multimodaux (MLLM) ont réalisé des progrès remarquables dans les tâches de vision et langage, mais ils continuent de rencontrer des difficultés dans la compréhension spatiale. Les MLLM spatiaux existants reposent souvent sur des entrées 3D explicites ou des modifications spécifiques à l'architecture, et restent limités par des jeux de données à grande échelle ou un apprentissage supervisé épars. Pour résoudre ces limitations, nous présentons SpatialThinker, un MLLM conscient de la 3D entraîné par apprentissage par renforcement (RL) pour intégrer un ancrage spatial structuré avec un raisonnement multi-étapes. Le modèle simule la perception spatiale humaine en construisant un graphe de scène des objets pertinents pour la tâche et des relations spatiales, et en raisonnant vers une réponse via des récompenses spatiales denses. SpatialThinker comprend deux contributions principales : (1) un pipeline de synthèse de données qui génère STVQA-7K, un jeu de données de haute qualité pour la question-réponse visuelle spatiale, et (2) un RL en ligne avec une récompense spatiale dense multi-objectif qui renforce l'ancrage spatial. SpatialThinker-7B surpasse l'apprentissage supervisé par fine-tuning et la base de référence RL éparse sur des benchmarks de compréhension spatiale et de question-réponse visuelle du monde réel, doublant presque le gain du modèle de base par rapport au RL éparse, et dépassant GPT-4o. Ces résultats démontrent l'efficacité de combiner une supervision spatiale avec un raisonnement aligné par récompense pour permettre une compréhension spatiale 3D robuste avec des données limitées et faire progresser les MLLM vers un raisonnement visuel de niveau humain.
Les progrès récents dans les grands modèles de langage (LLM) ont été propulsés par l'apprentissage par renforcement avec récompenses vérifiables (RLVR) et la mise à l'échelle au moment du test. Cependant, la longueur de sortie limitée des LLM contraint la profondeur de raisonnement réalisable en un seul processus d'inférence. Les systèmes de raisonnement multi-agents offrent une alternative prometteuse en employant plusieurs agents, notamment un Solveur, un Vérificateur et un Correcteur, pour affiner itérativement les solutions. Bien qu'efficaces dans des modèles propriétaires comme Gemini 2.5 Pro, ils peinent à généraliser aux modèles open source en raison de capacités de critique et de correction insuffisantes. Pour résoudre ce problème, nous proposons MarsRL, un nouveau cadre d'apprentissage par renforcement avec parallélisme de pipeline agentique, conçu pour optimiser conjointement tous les agents du système. MarsRL introduit des mécanismes de récompense spécifiques aux agents pour atténuer le bruit des récompenses et emploie un entraînement inspiré des pipelines pour améliorer l'efficacité dans le traitement des longues trajectoires. Appliqué à Qwen3-30B-A3B-Thinking-2507, MarsRL amène la précision AIME2025 de 86,5 % à 93,3 % et BeyondAIME de 64,9 % à 73,8 %, dépassant même Qwen3-235B-A22B-Thinking-2507. Ces résultats soulignent le potentiel de MarsRL pour faire progresser les systèmes de raisonnement multi-agents et élargir leur applicabilité à diverses tâches de raisonnement.
Les détecteurs à vocabulaire ouvert obtiennent des performances impressionnantes sur COCO, mais échouent souvent à généraliser sur des ensembles de données réels contenant des classes hors distribution généralement absentes de leur pré-entraînement. Plutôt que de simplement affiner un modèle vision-langage (VLM) lourd pour de nouveaux domaines, nous présentons RF-DETR, un transformeur de détection spécialisé léger qui découvre des courbes de Pareto précision-latence pour n'importe quel ensemble de données cible via une recherche d'architecture neuronale (NAS) avec partage de poids. Notre approche affine un réseau de base pré-entraîné sur un ensemble de données cible et évalue des milliers de configurations de réseau avec différents compromis précision-latence sans ré-entraînement. De plus, nous revisitons les "paramètres ajustables" du NAS pour améliorer la transférabilité des DETR vers divers domaines cibles. Notamment, RF-DETR améliore significativement l'état de l'art antérieur des méthodes temps réel sur COCO et Roboflow100-VL. RF-DETR (nano) atteint 48,0 AP sur COCO, surpassant D-FINE (nano) de 5,3 AP à latence similaire, et RF-DETR (2x-large) surpasse GroundingDINO (tiny) de 1,2 AP sur Roboflow100-VL tout en étant 20 fois plus rapide. À notre connaissance, RF-DETR (2x-large) est le premier détecteur temps réel à dépasser 60 AP sur COCO. Notre code est disponible à l'adresse https://github.com/roboflow/rf-detr.
Pour offrir une solution unifiée et flexible destinée à la communication quotidienne des personnes malentendantes, nous introduisons le paradigme Omni-Model dans les technologies d'assistance et présentons HI-TransPA, un assistant personnel audiovisuel piloté par instructions. Le modèle fusionne une parole indistincte avec une dynamique labiale à haute fréquence d'images, permettant à la fois la traduction et le dialogue au sein d'un même cadre multimodal. Pour relever les défis posés par des données brutes bruitées et hétérogènes, et par la capacité d'adaptation limitée des modèles omnimodaux existants face à la parole malentendante, nous avons conçu un pipeline complet de prétraitement et de curation qui détecte les points de repère faciaux, isole et stabilise la région labiale, et évalue quantitativement la qualité des échantillons multimodaux. Ces scores de qualité orientent une stratégie d'apprentissage curriculaire qui entraîne d'abord le modèle sur des échantillons propres et de haute confiance, puis intègre progressivement des cas plus complexes pour renforcer sa robustesse. Nous adoptons en outre un encodeur SigLIP combiné à un rééchantillonneur 3D unifié pour encoder efficacement le mouvement labial à haute fréquence. Les expériences menées sur notre jeu de données HI-Dialogue, construit spécifiquement, montrent que HI-TransPA obtient des performances à l'état de l'art en termes de précision littérale et de fidélité sémantique. Ce travail jette les bases de l'application des modèles omnimodaux aux technologies de communication assistée, en fournissant un cadre de modélisation de bout en bout et des outils de traitement essentiels pour les recherches futures.
L'optimisation des systèmes de recommandation pour des objectifs dépassant la précision, tels que la diversité, la nouveauté et la personnalisation, est cruciale pour la satisfaction des utilisateurs à long terme. À cette fin, les praticiens de l'industrie ont accumulé de vastes quantités de connaissances métier structurées, que nous appelons des préconceptions humaines (par exemple, des taxonomies d'articles, des modèles temporels). Ces connaissances sont généralement appliquées via des ajustements a posteriori lors du classement ou du post-classement. Cependant, cette approche reste découplée de l'apprentissage du modèle central, ce qui est particulièrement indésirable alors que l'industrie évolue vers des modèles de fondation génératifs de recommandation de bout en bout. D'autre part, de nombreuses méthodes ciblant ces objectifs au-delà de la précision nécessitent souvent des modifications spécifiques à l'architecture et rejettent ces précieuses préconceptions humaines en apprenant l'intention de l'utilisateur de manière entièrement non supervisée. Plutôt que de rejeter les préconceptions humaines accumulées au fil des années de pratique, nous introduisons un cadre indépendant de l'architecture de base qui intègre de manière transparente ces préconceptions humaines directement dans l'entraînement de bout en bout des recommandeurs génératifs. Grâce à des têtes d'adaptation légères, conditionnées par les préconceptions et inspirées par des stratégies de décodage efficaces de grands modèles de langage (LLM), notre approche guide le modèle pour qu'il distingue l'intention de l'utilisateur selon des axes compréhensibles par l'homme (par exemple, les types d'interaction, les intérêts à long terme versus à court terme). Nous introduisons également une stratégie de composition hiérarchique pour modéliser les interactions complexes entre différents types de préconceptions. Des expériences approfondies sur trois jeux de données à grande échelle démontrent que notre méthode améliore considérablement à la fois la précision et les objectifs qui la dépassent. Nous montrons également que les préconceptions humaines permettent au modèle de base de tirer parti plus efficacement de longueurs de contexte plus longues et de tailles de modèle plus importantes.
L'évaluation de la traduction au niveau discursif dans les domaines experts reste insuffisante, malgré son importance centrale pour la diffusion des connaissances et la communication scientifique multilingue. Bien que ces traductions exigent une cohérence discursive et une précision terminologique rigoureuse, les méthodes d'évaluation actuelles se concentrent principalement sur l'exactitude et la fluidité au niveau segmentaire. Pour remédier à cette limitation, nous présentons DiscoX, un nouveau benchmark pour la traduction chinois-anglais au niveau discursif et expert. Il comprend 200 textes sélectionnés professionnellement provenant de 7 domaines, avec une longueur moyenne dépassant 1700 tokens. Pour évaluer les performances sur DiscoX, nous développons également Metric-S, un système sans référence fournissant des évaluations automatiques granulaires couvrant l'exactitude, la fluidité et la pertinence. Metric-S démontre une forte concordance avec les jugements humains, surpassant significativement les métriques existantes. Nos expériences révèlent un écart de performance remarquable : même les LLM les plus avancés restent distancés par les experts humains sur ces tâches. Cette constatation valide la difficulté de DiscoX et souligne les défis persistants pour atteindre une traduction automatisée de qualité professionnelle. Le benchmark et le système d'évaluation proposés offrent un cadre robuste pour une évaluation plus rigoureuse, facilitant les progrès futurs dans la traduction basée sur les LLM.
Permettre aux systèmes d'IA agentiques d'adapter leurs approches de résolution de problèmes sur la base d'interactions post-entraînement demeure un défi fondamental. Bien que des systèmes mettant à jour et maintenant une mémoire au moment de l'inférence aient été proposés, les conceptions existantes ne pilotent le système qu'en modifiant l'entrée textuelle d'un modèle de langage ou d'un agent, ce qui signifie qu'elles ne peuvent pas modifier les paramètres d'échantillonnage, supprimer des outils, modifier les prompts système ou alterner entre les paradigmes agentiques et les workflows. D'autre part, les systèmes qui s'adaptent plus flexiblement nécessitent une optimisation hors ligne et restent statiques une fois déployés. Nous présentons l'Experience-Guided Reasoner (EGuR), qui génère des stratégies sur mesure – des procédures computationnelles complètes impliquant des appels à des LLM, des outils, des paramètres d'échantillonnage et une logique de contrôle – dynamiquement au moment de l'inférence, en se basant sur l'expérience accumulée. Nous y parvenons en utilisant une méta-stratégie basée sur un LLM – une stratégie qui produit des stratégies – permettant l'adaptation de tous les composants stratégiques (prompts, paramètres d'échantillonnage, configurations d'outils et logique de contrôle). EGuR fonctionne via deux composants : un Guide génère plusieurs stratégies candidates conditionnées par le problème actuel et la mémoire structurée des expériences passées, tandis qu'un Consolidateur intègre les retours d'exécution pour améliorer la génération future de stratégies. Cela produit des stratégies complètes, prêtes à l'emploi et optimisées pour chaque problème, qui peuvent être mises en cache, récupérées et exécutées selon les besoins sans gaspiller de ressources. Sur cinq benchmarks exigeants (AIME 2025, 3-SAT et trois tâches Big Bench Extra Hard), EGuR obtient des améliorations de précision allant jusqu'à 14 % par rapport aux lignes de base les plus solides, tout en réduisant les coûts computationnels jusqu'à 111 fois, ces deux métriques s'améliorant à mesure que le système acquiert de l'expérience.
L'émotion joue un rôle central dans l'expression vidéo, mais les systèmes de génération existants se concentrent principalement sur des métriques visuelles de bas niveau tout en négligeant les dimensions affectives. Bien que l'analyse des émotions ait progressé dans le domaine visuel, la communauté de la vidéo manque de ressources dédiées pour relier la compréhension des émotions aux tâches génératives, en particulier dans des contextes stylisés et non réalistes. Pour combler cette lacune, nous présentons EmoVid, le premier ensemble de données vidéo multimodal et annoté en émotions, spécifiquement conçu pour les médias créatifs, incluant des animations cartoon, des clips de films et des autocollants animés. Chaque vidéo est annotée avec des labels d'émotion, des attributs visuels (luminosité, intensité chromatique, teinte) et des légendes textuelles. Par une analyse systématique, nous mettons en évidence des motifs spatiaux et temporels reliant les caractéristiques visuelles aux perceptions émotionnelles à travers diverses formes vidéo. Sur la base de ces observations, nous développons une technique de génération vidéo conditionnée par l'émotion en affinant le modèle Wan2.1. Les résultats montrent une amélioration significative à la fois des métriques quantitatives et de la qualité visuelle des vidéos générées pour les tâches de texte-à-vidéo et d'image-à-vidéo. EmoVid établit une nouvelle référence pour l'informatique affective vidéo. Notre travail offre non seulement des perspectives précises sur l'analyse des émotions visuelles dans les vidéos de style artistique, mais propose également des méthodes pratiques pour améliorer l'expression émotionnelle dans la génération vidéo.
Les modèles de langage augmentés d'outils (TaLMs) peuvent invoquer des outils externes pour résoudre des problèmes au-delà de leur capacité paramétrique. Cependant, il reste incertain si ces gains permis par les outils reflètent un raisonnement fiable. En nous concentrant sur l'outil Code Interpreter, nous montrons que même lorsque les outils sont sélectionnés et exécutés correctement, les TaLMs traitent les sorties d'outils comme des substituts au raisonnement, produisant des solutions qui semblent correctes mais manquent de justification cohérente. Nous nommons ce mode d'échec Myopie Induite par les Outils (TIM), et l'étudions à l'aide de PYMATH, un benchmark de 1 679 problèmes mathématiques de niveau compétition pour lesquels le code Python est utile mais non suffisant. Nous développons en outre une suite d'évaluation multidimensionnelle pour quantifier la dégradation du raisonnement dans les TaLMs par rapport à leurs contreparties sans outils. Nos résultats révèlent que si les TaLMs obtiennent un gain allant jusqu'à 19,3 points de pourcentage en précision de réponse finale, leur comportement de raisonnement se détériore systématiquement (par exemple, les LLMs sans outils gagnent jusqu'à 41,5 % plus souvent dans des comparaisons par paires du processus de raisonnement). Cette dégradation s'intensifie avec l'utilisation d'outils ; plus un modèle invoque fréquemment des outils, moins son raisonnement devient cohérent. De plus, l'utilisation d'outils déplace les erreurs des fautes arithmétiques vers des échecs de raisonnement globaux (logique, hypothèse, créativité) ; avec TIM présent dans ~55 % des cas à haut risque. Enfin, nous proposons un cadre basé sur l'optimisation des préférences qui réaligne les TaLMs pour utiliser les outils comme preuves assistives, améliorant à la fois la précision des réponses finales et la profondeur du raisonnement lors de l'utilisation d'outils. Les codes et données sont disponibles à l'adresse : https://github.com/megagonlabs/TIM.
La génération d'idées scientifiques est au cœur de la découverte scientifique et a propulsé le progrès humain – que ce soit en résolvant des problèmes non résolus ou en proposant de nouvelles hypothèses pour expliquer des phénomènes inconnus. Contrairement au raisonnement scientifique standard ou à la génération créative générale, la génération d'idées en science est une tâche multi-objectifs et ouverte, où la nouveauté d'une contribution est aussi essentielle que sa solidité empirique. Les grands modèles de langage (LLM) ont récemment émergé comme des générateurs prometteurs d'idées scientifiques, capables de produire des résultats cohérents et factuels avec une intuition surprenante et un raisonnement acceptable, mais leur capacité créative reste inconstante et mal comprise. Cette synthèse propose une structuration des méthodes pour l'idéation scientifique pilotée par les LLM, en examinant comment différentes approches équilibrent créativité et rigueur scientifique. Nous catégorisons les méthodes existantes en cinq familles complémentaires : l'augmentation par connaissances externes, l'orientation distributionnelle par prompt, la mise à l'échelle lors de l'inférence, la collaboration multi-agents et l'adaptation au niveau des paramètres. Pour interpréter leurs contributions, nous utilisons deux cadres complémentaires : la taxonomie de Boden sur la créativité combinatoire, exploratoire et transformationnelle pour caractériser le niveau d'idées que chaque famille est censée générer, et le cadre des 4P de Rhodes – Personne, Processus, Pression environnementale et Produit – pour situer l'aspect ou la source de créativité que chaque méthode privilégie. En alignant les avancées méthodologiques sur les cadres de la créativité, cette synthèse clarifie l'état du domaine et esquisse les directions clés vers des applications fiables, systématiques et transformationnelles des LLM dans la découverte scientifique.
Nous réalisons une analyse approfondie des énoncés formels et informels du benchmark miniF2F du point de vue d'un système d'IA chargé de participer à une olympiade de mathématiques composée des problèmes de miniF2F. Dans ce contexte, le modèle doit lire et comprendre les problèmes en langage naturel, les formaliser dans le langage Lean, puis procéder à leur démonstration ; il obtiendra un crédit pour chaque problème si la preuve formelle correspond à l'énoncé informel original qui lui a été présenté. Nos résultats d'évaluation révèlent que la meilleure précision d'un tel pipeline peut atteindre environ 36 % avec les modèles de l'état de l'art (SoTA) de la littérature, ce qui est considérablement inférieur aux précisions individuelles de l'état de l'art, 97 % et 69 %, rapportées respectivement dans la littérature sur l'autoformalisation et la démonstration de théorèmes. En analysant les modes d'échec, nous attribuons une part importante de cette baisse à des divergences entre les énoncés formels et informels pour plus de la moitié des problèmes de miniF2F. Nous procédons à la correction de toutes les erreurs, divergences et simplifications dans les énoncés formels et informels, et présentons miniF2F-v2 avec des énoncés et des preuves formels et informels entièrement vérifiés. L'évaluation du pipeline complet de démonstration de théorèmes sur miniF2F-v2 aboutit à une précision maximale de 70 %, une amélioration significative par rapport aux 40 % obtenus sur le miniF2F original, mais indiquant toujours un désalignement considérable entre les modèles d'autoformalisation et les démonstrateurs de théorèmes. Notre analyse approfondie suggère qu'un benchmark de meilleure qualité peut aider la communauté à mieux évaluer les progrès dans le domaine du raisonnement formel et à mieux diagnostiquer les modes d'échec et de réussite des modèles d'autoformalisation et de démonstration de théorèmes. Notre jeu de données est disponible à l'adresse https://github.com/roozbeh-yz/miniF2F_v2.
Ce document présente une nouvelle approche de catégorisation des ordonnanceurs de charge de travail modernes. Nous fournissons une description de trois classes d'ordonnanceurs : les ordonnanceurs de processus des systèmes d'exploitation, les ordonnanceurs de tâches des systèmes en grappe et les ordonnanceurs de données massives. Nous décrivons leur évolution depuis les premières adoptions jusqu'aux implémentations modernes, en considérant à la fois l'utilisation et les caractéristiques des algorithmes. En résumé, nous discutons des différences entre toutes les classes d'ordonnanceurs présentées et examinons leur développement chronologique. En conclusion, nous soulignons les similitudes dans l'orientation de la conception des stratégies d'ordonnancement, applicables à la fois aux systèmes locaux et distribués.
Le déploiement croissant d'agents d'IA autonomes sur le web est entravé par un problème fondamental d'alignement : les agents doivent déduire les affordances des interfaces utilisateur conçues pour les humains, ce qui entraîne des interactions fragiles, inefficaces et non sécurisées. Pour résoudre ce problème, nous présentons VOIX, un framework natif pour le web qui permet aux sites web d'exposer des capacités fiables, vérifiables et respectueuses de la vie privée pour les agents IA via de simples éléments HTML déclaratifs. VOIX introduit les balises <tool> et <context>, permettant aux développeurs de définir explicitement les actions disponibles et l'état pertinent, créant ainsi un contrat clair et lisible par la machine pour le comportement des agents. Cette approche transfère le contrôle au développeur du site web tout en préservant la vie privée de l'utilisateur en dissociant les interactions conversationnelles du site web. Nous avons évalué la praticité, la facilité d'apprentissage et l'expressivité du framework lors d'une étude sous forme de hackathon de trois jours avec 16 développeurs. Les résultats démontrent que les participants, indépendamment de leur expérience préalable, ont pu construire rapidement des applications web fonctionnelles et variées intégrant des agents. En définitive, ce travail fournit un mécanisme fondamental pour concrétiser le Web Agentique, ouvrant la voie à une collaboration humaine-IA transparente et sécurisée sur le web.
Ce document présente une stratégie d'allocation des services sur un système Cloud visant à éviter la surcharge des nœuds tout en maintenant la stabilité du système à un coût minimal. Nous spécifions un modèle abstrait de l'utilisation des ressources cloud, incluant plusieurs types de ressources ainsi que des considérations relatives aux coûts de migration des services. Un prototype de répartiteur de charge méta-heuristique est démontré, et les résultats expérimentaux sont présentés et discutés. Nous proposons également un nouvel algorithme génétique, où la population est initialisée avec les résultats d'autres algorithmes méta-heuristiques.
La perception coopérative véhicule-à-véhicule (V2V) présente un potentiel considérable pour améliorer les performances de la conduite autonome en surmontant les limitations de perception dans les scénarios de trafic complexes et défavorables (CATS). Parallèlement, les données constituent l'infrastructure fondamentale de l'intelligence artificielle moderne pour la conduite autonome. Cependant, en raison d'exigences strictes en matière de collecte de données, les ensembles de données existants se concentrent principalement sur des scénarios de trafic ordinaires, limitant ainsi les avantages de la perception coopérative. Pour relever ce défi, nous présentons CATS-V2V, le premier jeu de données réel pour la perception coopérative V2V dans des conditions de trafic complexes et défavorables. Ce jeu de données a été collecté par deux véhicules synchronisés matériellement, couvrant 10 conditions météorologiques et d'éclairage réparties sur 10 sites géographiques diversifiés. L'ensemble de 100 séquences comprend 60 000 images de nuages de points LiDAR à 10 Hz et 1,26 million d'images multi-vues caméra à 30 Hz, accompagnées de 750 000 enregistrements GNSS et IMU anonymisés mais de haute précision, fixés par RTK. Corrélativement, nous fournissons des annotations de boîtes englobantes 3D temporellement cohérentes pour les objets, ainsi que des scènes statiques pour construire une représentation BEV 4D. Sur cette base, nous proposons une méthode d'alignement temporel basée sur les cibles, garantissant que tous les objets sont parfaitement alignés sur toutes les modalités de capteurs. Nous espérons que CATS-V2V, le jeu de données de ce type le plus vaste, le plus complet et de la plus haute qualité à ce jour, bénéficiera à la communauté de la conduite autonome dans les tâches connexes.