Articles de recherche IA sélectionnés quotidiennement avec traductions
Dans des conditions de pré-entraînement strictement contrôlées, nous observons un phénomène de croisement : lorsque les données uniques sont limitées, les modèles de langage à diffusion (DLM) surpassent systématiquement les modèles autorégressifs (AR) en s'entraînant sur un plus grand nombre d'époques. Ce point de croisement se décale vers des époques plus tardives avec davantage ou de meilleures données, plus tôt avec des modèles plus grands, et persiste à travers les architectures denses et parcimonieuses. Nous attribuons ces gains à trois facteurs cumulatifs : (1) la modélisation à ordre arbitraire, (2) la densité de calcul extrême issue du dé-bruitage bidirectionnel itératif, et (3) l'augmentation de type Monte Carlo intégrée ; l'ajout de bruit sur les entrées ou les paramètres améliore les modèles AR dans un contexte de données limitées mais ne permet pas de combler l'écart. À grande échelle, un DLM de 1,7 milliard de paramètres entraîné avec un budget de calcul d'environ 1,5 billion de tokens sur 10 milliards de tokens uniques de code Python dépasse un codeur AR entraîné avec des paramètres strictement identiques. De plus, un DLM d'un milliard de paramètres atteint une précision > 56 % sur HellaSwag et > 33 % sur MMLU en utilisant seulement 1 milliard de tokens, sans astuces particulières, simplement en répétant les données standard de pré-entraînement. Nous montrons également que dans ce régime, l'augmentation de la perte d'entropie croisée en validation n'implique pas une dégradation des performances en aval.
En raison de l'absence de modélisation croisée intermodale efficace, les méthodes open-source existantes de génération audio-vidéo présentent souvent une synchronisation labiale dégradée et une cohérence sémantique insuffisante. Pour pallier ces limitations, nous proposons UniAVGen, un cadre unifié pour la génération conjointe audio et vidéo. UniAVGen s'articule autour d'une architecture de synthèse conjointe à double branche, intégrant deux Transformers à Diffusion (DiT) parallèles pour construire un espace latent intermodal cohésif. Son cœur repose sur un mécanisme d'Interaction Intermodale Asymétrique, qui permet une attention croisée bidirectionnelle et temporellement alignée, garantissant ainsi une synchronisation spatiotemporelle précise et une cohérence sémantique. De plus, cette interaction intermodale est renforcée par un module de Modulation Sensible au Visage, qui hiérarchise dynamiquement les régions saillantes lors du processus d'interaction. Pour améliorer la fidélité générative lors de l'inférence, nous introduisons également un Guidage Classifieur-Libre Sensible aux Modalités, une nouvelle stratégie qui amplifie explicitement les signaux de corrélation intermodale. Il est à noter que la conception robuste de synthèse conjointe d'UniAVGen permet l'unification transparente de tâches audio-vidéo pivots au sein d'un modèle unique, telles que la génération et la continuation conjointes audio-vidéo, le doublage vidéo-vers-audio, et la synthèse vidéo pilotée par l'audio. Des expériences exhaustives valident que, avec beaucoup moins d'échantillons d'entraînement (1,3M contre 30,1M), UniAVGen offre des avantages globaux en matière de synchronisation audio-vidéo, de cohérence du timbre et de cohérence émotionnelle.
Malgré les progrès récents dans l'utilisation des Grands Modèles de Langage (LLMs) pour générer automatiquement des scènes 3D, les scènes produites manquent souvent de la cohérence spatiale réaliste et des attributs d'objets présents dans les environnements réels. Ce problème découlant d'instructions insuffisamment détaillées et trop générales, il devient crucial de faire progresser la synthèse de scènes 3D guidée par des instructions plus détaillées et granulaires reflétant les environnements du monde réel. Sans de telles scènes réalistes, l'entraînement d'agents incarnés dans des environnements non réalistes peut les amener à apprendre des prérequis qui s'écartent significativement de la physique et de la sémantique du monde réel, dégradant leurs performances une fois déployés. Ainsi, vérifier l'alignement entre l'instruction granulaire et la scène générée est essentiel pour un apprentissage efficace. Cependant, les méthodes d'évaluation actuelles, comme le CLIPScore et les modèles vision-langage (VLMs), échouent souvent à évaluer cet alignement de manière fiable. Cette lacune provient principalement de leur compréhension superficielle des scènes 3D, qui conduit souvent à des composants de scène mal ancrés. Pour y remédier, nous présentons LEGO-Eval, un cadre d'évaluation équipé d'outils divers conçus pour ancrer explicitement les composants de la scène, permettant des évaluations d'alignement plus précises. Nous présentons également LEGO-Bench, un benchmark d'instructions détaillées spécifiant des agencements complexes et les attributs d'environnements réels. Les expériences démontrent que LEGO-Eval surpasse l'approche "VLM-comme-juge" par un score F1 de 0,41 pour évaluer l'alignement scène-instruction. Le benchmarking avec LEGO-Bench révèle des limitations significatives dans les méthodes de génération actuelles. Pour toutes les approches évaluées, les taux de réussite atteignent au maximum 10% pour générer des scènes entièrement alignées avec des instructions granulaires.
Les évaluations actuelles des agents de modèles de langage de grande taille (LLM) se concentrent principalement sur l'accomplissement des tâches, négligeant souvent l'efficacité des ressources et l'adaptabilité. Cette approche ignore une capacité cruciale : l'aptitude des agents à concevoir et ajuster des plans optimaux en termes de coût face à des environnements changeants. Pour combler cette lacune, nous présentons CostBench, un benchmark évolutif et centré sur les coûts, conçu pour évaluer le raisonnement économique et les capacités de replanification des agents. Situé dans le domaine de la planification de voyages, CostBench comprend des tâches résolubles via de multiples séquences d'outils atomiques et composites aux coûts diversifiés et personnalisables. Il prend également en charge quatre types d'événements bloquants dynamiques, tels que des pannes d'outils et des modifications de coûts, pour simuler l'imprévisibilité du monde réel et contraindre les agents à s'adapter en temps réel. L'évaluation des modèles open-source et propriétaires leaders sur CostBench révèle un écart substantiel dans la planification consciente des coûts : les agents échouent fréquemment à identifier les solutions optimales en contexte statique, GPT-5 atteignant même moins de 75% de taux de correspondance exacte sur les tâches les plus difficiles, et les performances chutant d'environ 40% supplémentaires dans des conditions dynamiques. En diagnostiquant ces faiblesses, CostBench jette les bases pour développer des futurs agents à la fois économiquement rationnels et robustes.
Les données tabulaires restent le format dominant pour les applications réelles. Pourtant, le développement de modèles neuronaux efficaces pour les données tabulaires reste difficile en raison de types de caractéristiques hétérogènes et d'interactions complexes se produisant à multiples échelles. Les récentes avancées en apprentissage en contexte (ICL) pour données tabulaires, comme TabPFN et TabICL, ont atteint des performances à l'état de l'art comparables aux arbres à gradient boosting (GBTs) sans fine-tuning spécifique à la tâche. Cependant, les architectures actuelles présentent des limitations majeures : (1) un traitement des caractéristiques à échelle unique qui néglige les dépendances hiérarchiques, (2) une attention dense avec une complexité quadratique en fonction de la largeur de la table, et (3) un traitement séquentiel strict des composants qui empêche un raffinement itératif des représentations et une communication inter-composants. Pour relever ces défis, nous présentons Orion-MSP, une architecture ICL tabulaire comportant trois innovations clés : (1) un traitement multi-échelle pour capturer les interactions hiérarchiques entre caractéristiques ; (2) une attention bloc-sparse combinant des motifs fenêtrés, globaux et aléatoires pour une efficacité évolutive et une connectivité à longue portée ; et (3) une mémoire de style Perceiver permettant un flux d'information bidirectionnel sécurisé entre les composants. Sur divers benchmarks, Orion-MSP égal ou dépasse les performances de l'état de l'art tout en étant efficacement évolutif pour les tables à haute dimensionnalité, établissant une nouvelle référence pour l'apprentissage en contexte tabulaire efficace. Le modèle est disponible publiquement à l'adresse https://github.com/Lexsi-Labs/Orion-MSP.
Les modèles de fondation tabulaires constituent un paradigme émergent dans l'apprentissage de données structurées, étendant les avantages du pré-entraînement à grande échelle aux domaines tabulaires. Cependant, leur adoption reste limitée en raison de pipelines de prétraitement hétérogènes, d'API fragmentées, de procédures de fine-tuning incohérentes et de l'absence d'évaluation standardisée pour des métriques orientées déploiement comme l'étalonnage et l'équité. Nous présentons TabTune, une bibliothèque unifiée qui standardise le flux de travail complet pour les modèles de fondation tabulaires via une interface unique. TabTune offre un accès cohérent à sept modèles state-of-the-art supportant multiples stratégies d'adaptation, incluant l'inférence zero-shot, le méta-apprentissage, le fine-tuning supervisé (SFT) et le fine-tuning efficace en paramètres (PEFT). Le framework automatise le prétraitement adapté aux modèles, gère l'hétérogénéité architecturale en interne et intègre des modules d'évaluation pour les performances, l'étalonnage et l'équité. Conçu pour l'extensibilité et la reproductibilité, TabTune permet un benchmarking cohérent des stratégies d'adaptation des modèles de fondation tabulaires. La bibliothèque est open source et disponible à l'adresse https://github.com/Lexsi-Labs/TabTune.
Une compréhension approfondie des structures cinématiques et des composants mobiles est essentielle pour permettre aux robots de manipuler des objets et de modéliser leurs propres formes articulées. Cette compréhension est formalisée par les objets articulés, qui sont indispensables pour des tâches telles que la simulation physique, la planification de mouvement et l'apprentissage de politiques. Cependant, la création de ces modèles, particulièrement pour les objets possédant un haut degré de liberté (DDL), reste un défi majeur. Les méthodes existantes reposent généralement sur des séquences de mouvement ou sur des hypothèses fortes issues de jeux de données annotés manuellement, ce qui limite leur extensibilité. Dans cet article, nous présentons Kinematify, un cadre automatisé qui synthétise des objets articulés directement à partir d'images RVB arbitraires ou de descriptions textuelles. Notre méthode aborde deux défis fondamentaux : (i) l'inférence des topologies cinématiques pour les objets à haut DDL et (ii) l'estimation des paramètres des articulations à partir de la géométrie statique. Pour y parvenir, nous combinons une recherche par MCTS pour l'inférence structurelle avec une optimisation guidée par la géométrie pour le raisonnement sur les articulations, produisant ainsi des descriptions physiquement cohérentes et fonctionnellement valides. Nous évaluons Kinematify sur des entrées variées provenant d'environnements synthétiques et réels, démontrant des améliorations en matière de précision de recalage et de topologie cinématique par rapport aux travaux antérieurs.
Les grands modèles de langage (LLM) démontrent des performances solides sur diverses benchmarks - allant des quiz de connaissances et du raisonnement mathématique aux tâches d'agents web - mais ces tests se déroulent dans des cadres statiques, dépourvus de dynamique réelle et d'incertitude. Par conséquent, ils évaluent un raisonnement ou une résolution de problèmes isolés plutôt qu'une prise de décision dans l'incertitude. Pour remédier à cela, nous présentons LiveTradeBench, un environnement de trading en temps réel conçu pour évaluer les agents LLM dans des marchés réalistes et évolutifs. LiveTradeBench suit trois principes de conception : (i) Un flux de données en direct sur les prix du marché et l'actualité, éliminant la dépendance au backtesting hors ligne et empêchant les fuites d'information tout en captant l'incertitude en temps réel ; (ii) une abstraction de la gestion de portefeuille qui étend le contrôle des actions sur un seul actif à l'allocation multi-actifs, intégrant la gestion des risques et le raisonnement cross-actifs ; et (iii) une évaluation multi-marchés couvrant des environnements structurellement distincts - les actions américaines et les marchés prédictifs Polymarket - différant en termes de volatilité, de liquidité et de flux d'information. À chaque étape, un agent observe les prix, l'actualité et son portefeuille, puis produit des allocations en pourcentage qui équilibrent risque et rendement. En utilisant LiveTradeBench, nous avons mené des évaluations en direct sur 50 jours pour 21 LLM de différentes familles. Les résultats montrent que (1) des scores élevés sur LMArena n'impliquent pas de meilleurs résultats en trading ; (2) les modèles affichent des styles de portefeuille distincts reflétant leur appétence pour le risque et leur dynamique de raisonnement ; et (3) certains LLM exploitent efficacement les signaux en direct pour adapter leurs décisions. Ces résultats mettent en lumière un écart entre l'évaluation statique et la compétence dans le monde réel, motivant le développement de benchmarks testant la prise de décision séquentielle et la cohérence face à l'incertitude en temps réel.
Alors que les modèles de raisonnement évoluent rapidement, le rôle essentiel de la multimodalité dans la cognition humaine est devenu évident, suscitant un besoin croissant d'explorer les comportements cognitifs centrés sur la vision. Pourtant, les benchmarks multimodaux existants soit surestiment le raisonnement textuel, soit ne parviennent pas à capturer systématiquement les comportements cognitifs centrés sur la vision, laissant la capacité cognitive des MLLM insuffisamment évaluée. Pour remédier à cette limite, nous présentons MME-CC (benchmark d'Évaluation Multimodale de la Capacité Cognitive), un benchmark ancré dans la vision qui organise 11 tâches de raisonnement représentatives en trois catégories fondamentales d'information visuelle : raisonnement spatial, géométrique et basé sur les connaissances, et fournit des analyses granulaires de la capacité cognitive des MLLM selon ces dimensions. Sur la base de MME-CC, nous menons des expériences approfondies sur 16 MLLM représentatifs. Notre étude révèle que les modèles fermés sont actuellement en tête (par exemple, 42,66 pour Gemini-2.5-Pro contre 30,45 pour GLM-4.5V), tandis que le raisonnement spatial et géométrique reste globalement faible (inférieur ou égal à 30 %). Nous identifions en outre des erreurs courantes, incluant les confusions d'orientation, la persistance fragile de l'identité inter-vues et la mauvaise adhésion aux instructions contrefactuelles, et observons que le raisonnement en chaîne suit généralement un processus en trois étapes (extraire -> raisonner -> vérifier) avec une forte dépendance à l'extraction visuelle. Nous espérons que ce travail catalyse une évolution vers le traitement de la capacité cognitive des MLLM comme centrale à la fois pour l'évaluation et la conception des modèles.
Nous revisitons le dimensionnement au moment du test pour le raisonnement des modèles de langage et posons une question fondamentale : à budget de tokens et puissance de calcul équivalents, vaut-il mieux exécuter plusieurs chaînes de raisonnement indépendantes en parallèle, ou exécuter moins de chaînes qui s'améliorent de manière itérative par étapes séquentielles ? Grâce à une évaluation exhaustive sur 5 modèles open source de pointe et 3 benchmarks de raisonnement exigeants, nous constatons que le dimensionnement séquentiel, où les chaînes s'appuient explicitement sur les tentatives précédentes, surpasse systématiquement le paradigme dominant d'auto-cohérence parallèle dans 95,6 % des configurations, avec des gains de précision allant jusqu'à 46,7 %. De plus, nous introduisons le vote pondéré par l'entropie inverse, une nouvelle méthode sans entraînement pour améliorer davantage la précision du dimensionnement séquentiel. En pondérant les réponses proportionnellement à l'entropie inverse de leurs chaînes de raisonnement, nous augmentons notre taux de succès par rapport au vote majoritaire parallèle et l'établissons comme la stratégie de dimensionnement au moment du test optimale. Nos résultats remettent fondamentalement en cause l'orthodoxie du raisonnement parallèle qui a dominé le dimensionnement au moment du test depuis le décodage par auto-cohérence de Wang et al. (Wang et al., 2022), positionnant le raffinement séquentiel comme l'option robuste par défaut pour le raisonnement des LLM modernes et nécessitant un changement de paradigme dans notre approche de l'optimisation à l'inférence.
Le dialogue collaboratif repose sur l'établissement progressif d'un terrain d'entente par les participants, mais dans des contextes asymétriques, ils peuvent croire être d'accord tout en référant à des entités différentes. Nous introduisons un schéma d'annotation perspectiviste pour le corpus HCRC MapTask (Anderson et al., 1991) qui capture séparément les interprétations ancrées du locuteur et du destinataire pour chaque expression référentielle, nous permettant de retracer comment la compréhension émerge, diverge et se répare dans le temps. En utilisant un pipeline d'annotation par LLM contraint par le schéma, nous obtenons 13k expressions référentielles annotées avec des estimations de fiabilité et analysons les états de compréhension résultants. Les résultats montrent que les incompréhensions complètes sont rares une fois les variantes lexicales unifiées, mais que les divergences multiplicatives induisent systématiquement des écarts, révélant comment un ancrage apparent peut masquer un désalignement référentiel. Notre cadre fournit à la fois une ressource et une lentille analytique pour étudier les incompréhensions ancrées et pour évaluer la capacité des (V)LLM à modéliser l'ancrage dépendant de la perspective dans le dialogue collaboratif.
L'augmentation de requêtes permet de rendre les requêtes plus significatives en ajoutant des informations supplémentaires pour trouver des documents pertinents. Les études actuelles ont proposé des systèmes d'embedding basés sur les grands modèles de langage (LLM), qui apprennent simultanément la représentation pour l'embedding et la génération pour l'augmentation de requêtes de manière multi-tâche en exploitant les capacités génératives des LLM. Lors de l'inférence, ces systèmes d'embedding entraînés conjointement ont réalisé l'augmentation de requêtes suivie de l'embedding, montrant des résultats efficaces. Cependant, augmenter chaque requête entraîne une latence d'embedding substantielle et l'augmentation peut être préjudiciable aux performances pour certaines requêtes. De plus, les méthodes précédentes n'ont pas été explorées dans des environnements multimodaux. Pour résoudre ces problèmes, nous proposons M-Solomon, un système d'embedding multimodal universel qui peut déterminer de manière adaptative quand augmenter les requêtes. Notre approche divise d'abord les requêtes des jeux de données d'entraînement en deux groupes au niveau du jeu de données. L'un comprend les requêtes nécessitant une augmentation et l'autre celles qui n'en nécessitent pas. Ensuite, nous introduisons un processus de synthèse qui génère des augmentations appropriées pour les requêtes qui en ont besoin en exploitant un MLLM (Multimodal Large Language Model) puissant. Puis, nous présentons l'augmentation de requêtes adaptative. Grâce à cette étape, M-Solomon peut réaliser l'augmentation de requêtes seulement lorsque nécessaire en apprenant à générer des augmentations synthétiques avec le préfixe /augment pour les requêtes qui l'exigent et à générer la simple chaîne /embed pour les autres. Les résultats expérimentaux ont montré que M-Solomon non seulement surpassait largement le système de base sans augmentation, mais aussi surpassait le système de base utilisant toujours l'augmentation, tout en offrant une latence d'embedding bien plus rapide.
Comprendre les capacités actuelles et les risques des systèmes de Scientifique IA est essentiel pour garantir des progrès scientifiques pilotés par l'IA fiables et durables, tout en préservant l'intégrité de l'écosystème académique. À cette fin, nous développons Jr. AI Scientist, un système autonome de scientifique IA de pointe qui reproduit le flux de travail de recherche fondamental d'un étudiant chercheur novice : à partir d'un article de référence fourni par un mentor humain, il analyse ses limites, formule de nouvelles hypothèses d'amélioration, les valide par une expérimentation rigoureuse et rédige un article présentant les résultats. Contrairement aux approches antérieures qui supposent une automatisation complète ou opèrent sur du code à petite échelle, Jr. AI Scientist suit un processus de recherche bien défini et utilise des agents de codage modernes pour gérer des implémentations complexes et multi-fichiers, aboutissant à des contributions scientifiquement valables. Pour l'évaluation, nous avons mené des évaluations automatisées à l'aide de réviseurs IA, des évaluations dirigées par les auteurs et des soumissions à Agents4Science, une plateforme dédiée aux contributions scientifiques pilotées par l'IA. Les résultats démontrent que Jr. AI Scientist génère des articles recevant des scores d'évaluation plus élevés que les systèmes entièrement automatisés existants. Néanmoins, nous identifions d'importantes limites à la fois dans l'évaluation des auteurs et dans les revues d'Agents4Science, indiquant les risques potentiels liés à l'application directe des systèmes actuels de Scientifique IA et les défis majeurs pour les recherches futures. Enfin, nous rapportons de manière exhaustive divers risques identifiés durant le développement. Nous espérons que ces éclairages approfondiront la compréhension des progrès actuels et des risques dans le développement des Scientifiques IA.