papers.description
Malgré les avancées de l'IA scientifique, un cadre cohérent pour l'Intelligence Générale Scientifique (IGS) – la capacité à concevoir, investiguer et raisonner de manière autonome à travers les domaines scientifiques – fait encore défaut. Nous présentons une définition opérationnelle de l'IGS fondée sur le Modèle d'Investigation Pratique (MIP : Délibération, Conception, Action, Perception) et l'opérationnalisons via quatre tâches alignées sur le travail du scientifique : recherche approfondie, génération d'idées, expériences *in silico*/*in vitro*, et raisonnement expérimental. SGI-Bench comprend plus de 1 000 échantillons interdisciplinaires, expertisés et inspirés par les 125 Grandes Questions de la revue *Science*, permettant l'évaluation systématique des modèles de langage les plus avancés. Les résultats révèlent des écarts : un faible taux de correspondance exacte (10-20%) dans la recherche approfondie malgré un alignement au niveau des étapes ; des idées manquant de faisabilité et de détail ; une haute exécutabilité du code mais une faible exactitude des résultats d'exécution dans les expériences *in silico* ; une faible fidélité séquentielle dans les protocoles *in vitro* ; et des défis persistants en raisonnement comparatif multimodal. Nous introduisons également le Renforcement Apprentissage au Moment du Test (TTRL), qui optimise à l'inférence des récompenses basées sur la nouveauté et augmentées par retrieval, améliorant la nouveauté des hypothèses sans nécessiter de réponse de référence. Ensemble, notre définition ancrée dans le MIP, notre benchmark centré sur le flux de travail et nos insights empiriques jettent les bases pour des systèmes d'IA qui participent véritablement à la découverte scientifique.
La généralisation robotique repose sur l'intelligence physique : la capacité à raisonner sur les changements d'état, les interactions riches en contacts et la planification à long horizon dans un cadre de perception et d'action égocentrique. Cependant, la plupart des modèles de langage visuel (VLM) sont principalement entraînés sur des données à la troisième personne, créant une inadéquation fondamentale de point de vue pour les robots humanoïdes. L'augmentation de la collecte de données égocentriques robotiques reste peu pratique en raison de son coût élevé et de sa diversité limitée, tandis que les vidéos égocentriques humaines à grande échelle offrent une alternative viable qui capture naturellement un riche contexte d'interaction et une structure causale. Le défi principal consiste à convertir des vidéos égocentriques brutes en une supervision d'entraînement à l'incarnation structurée et fiable. En conséquence, nous proposons un pipeline de traduction Egocentric2Embodiment qui transforme les vidéos à la première personne en une supervision de question-réponse visuelle (VQA) multi-niveaux, pilotée par des schémas, avec un ancage probatoire renforcé et une cohérence temporelle, permettant la construction à grande échelle du jeu de données Egocentric2Embodiment (E2E-3M). Un cerveau incarné conscient de l'égocentrisme, nommé PhysBrain, est obtenu par entraînement sur le jeu de données E2E-3M. PhysBrain démontre une compréhension égocentrique considérablement améliorée, particulièrement pour la planification sur EgoThink. Il fournit une initialisation consciente de l'égocentrisme qui permet un réglage fin des VLA plus efficace en termes d'échantillons et de meilleurs taux de réussite sur SimplerEnv (53,9 %), démontrant un transfert efficace de la supervision égocentrique humaine vers le contrôle robotique en aval.
Malgré les performances supérieures des Grands Modèles de Raisonnement (LRMs), leurs comportements déductifs sont souvent contre-intuitifs, conduisant à des capacités de raisonnement sous-optimales. Pour formaliser théoriquement les comportements de raisonnement souhaités, cet article présente les Lois du Raisonnement (LoRe), un cadre unifié qui caractérise les schémas de raisonnement intrinsèques des LRMs. Nous proposons d'abord une loi de calcul, basée sur l'hypothèse que la puissance de calcul dédiée au raisonnement devrait augmenter linéairement avec la complexité de la question. Au-delà du calcul, nous étendons LoRe avec une loi de précision supplémentaire. Étant donné que la complexité des questions est difficile à quantifier en pratique, nous examinons ces hypothèses via deux propriétés des lois : la monotonie et la compositionnalité. Nous introduisons donc LoRe-Bench, un benchmark qui mesure systématiquement ces deux propriétés gérables pour les grands modèles de raisonnement. L'évaluation montre que la plupart des modèles de raisonnement présentent une monotonie raisonnable mais manquent de compositionnalité. En réponse, nous développons une méthode de fine-tuning efficace qui renforce la compositionnalité de la loi de calcul. Des études empiriques approfondies démontrent qu'une meilleure conformité aux lois de calcul entraîne une amélioration constante des performances de raisonnement sur plusieurs benchmarks, et révèle des effets synergiques entre les propriétés et les lois. Page du projet : https://lore-project.github.io/
Les grands modèles linguistiques ont récemment accompli des progrès significatifs dans la génération de preuves mathématiques rigoureuses. En revanche, l'utilisation des LLM pour la démonstration de théorèmes dans des langages formels (comme Lean) reste difficile et coûteuse en calcul, particulièrement pour des problèmes de niveau licence et au-delà. Dans ce travail, nous présentons Seed-Prover 1.5, un modèle de démonstration de théorèmes formels entraîné par apprentissage par renforcement agentique à grande échelle, ainsi qu'un flux de travail efficace de mise à l'échelle au moment du test (TTS). Grâce à des interactions approfondies avec Lean et d'autres outils, le modèle accumule continuellement de l'expérience durant le processus d'apprentissage par renforcement, améliorant substantiellement la capacité et l'efficacité de la démonstration formelle. De plus, en tirant parti des avancées récentes en démonstration en langage naturel, notre flux de travail TTS comble efficacement le fossé entre les langages naturels et formels. Comparé aux méthodes de l'état de l'art, Seed-Prover 1.5 obtient des performances supérieures avec un budget de calcul réduit. Il résout 88 % des problèmes de PutnamBench (niveau licence), 80 % de ceux de Fate-H (niveau master) et 33 % de ceux de Fate-X (niveau doctorat). Fait notable, en utilisant notre système, nous avons résolu 11 des 12 problèmes du Putnam 2025 en moins de 9 heures. Nos résultats suggèrent que la mise à l'échelle de l'apprentissage par l'expérience, guidée par un retour formel de haute qualité, recèle un immense potentiel pour l'avenir du raisonnement mathématique formel.
Les modèles de diffusion latente (LDM) modernes opèrent généralement dans des espaces latents de type VAE de bas niveau, principalement optimisés pour la reconstruction au niveau pixel. Pour unifier la génération et la compréhension visuelles, une tendance émergente consiste à adopter des caractéristiques de haute dimension issues d'encodeurs de représentation comme latents génératifs. Cependant, nous identifions empiriquement deux obstacles fondamentaux dans ce paradigme : (1) l'espace de caractéristiques discriminatif manque de régularisation compacte, rendant les modèles de diffusion sensibles aux latents hors-variété qui produisent des structures d'objet inexactes ; et (2) la reconstruction au niveau pixel intrinsèquement faible de l'encodeur empêche le générateur d'apprendre une géométrie et une texture précises à grain fin. Dans cet article, nous proposons un cadre systématique pour adapter les caractéristiques d'encodeurs orientés compréhension à des tâches génératives. Nous introduisons un objectif de reconstruction sémantique-pixel pour régulariser l'espace latent, permettant la compression à la fois de l'information sémantique et des détails à grain fin en une représentation hautement compacte (96 canaux avec un sous-échantillonnage spatial de 16x16). Cette conception garantit que l'espace latent reste sémantiquement riche et atteint une reconstruction d'image à l'état de l'art, tout en restant suffisamment compact pour une génération précise. En tirant parti de cette représentation, nous concevons un modèle unifié de texte-à-image (T2I) et d'édition d'image. En comparant divers espaces de caractéristiques, nous démontrons que notre approche atteint une reconstruction à l'état de l'art, une convergence plus rapide et des gains de performance substantiels dans les tâches T2I et d'édition, validant que les encodeurs de représentation peuvent être efficacement adaptés en composants génératifs robustes.
Malgré les progrès des modèles de langage multimodaux (MLLM), leur capacité à raisonner sur les structures 3D et la dynamique temporelle reste limitée, entravée par une perception 4D et une compréhension temporelle faibles. Les benchmarks existants pour la question-réponse sur vidéo 3D et 4D (VQA) privilégient également les scènes statiques et manquent d'invites au niveau régional. Nous abordons ces problèmes en introduisant : (a) 4D-RGPT, un MLLM spécialisé conçu pour capturer des représentations 4D à partir de vidéos avec une perception temporelle améliorée ; (b) la Distillation Perceptive 4D (P4D), un cadre d'entraînement qui transfère les représentations 4D d'un modèle expert figé vers 4D-RGPT pour une perception 4D complète ; et (c) R4D-Bench, un benchmark pour les scènes dynamiques avec conscience de la profondeur et des invites régionales, construit via un pipeline hybride automatisé et validé par des humains. Notre modèle 4D-RGPT obtient des améliorations notables à la fois sur les benchmarks 4D VQA existants et sur le benchmark R4D-Bench proposé.
L'évaluation par LLM (LLM-as-a-Judge) a été largement adoptée comme méthode d'évaluation et sert de récompense supervisée dans l'entraînement des modèles. Cependant, les benchmarks existants pour cette méthode reposent principalement sur une vérité terrain annotée par des humains, ce qui introduit un biais humain qui compromet l'évaluation de la fiabilité et impose des contraintes d'évolutivité. Pour surmonter ces limitations, nous présentons Sage, une nouvelle suite d'évaluation qui évalue la qualité des juges LLM sans nécessiter aucune annotation humaine. Inspiré par les axiomes de la théorie du choix rationnel, Sage introduit deux nouvelles perspectives pour mesurer l'évaluation par LLM : l'auto-cohérence locale (stabilité des préférences par paires) et la cohérence logique globale (transitivité sur un ensemble complet de préférences). Nous constituons un jeu de données de 650 questions en combinant des problèmes de benchmark structurés avec des requêtes d'utilisateurs réels. Nos expériences démontrent à la fois la stabilité de nos métriques et leur forte corrélation avec des benchmarks supervisés comme LLMBar et RewardBench2, confirmant la fiabilité de Sage en tant que suite d'évaluation pour la robustesse et la précision de l'évaluation par LLM. Sur la base de Sage, nous révélons que les LLM à l'état de l'art actuels présentent des problèmes de fiabilité significatifs lorsqu'ils agissent comme juges, que ce soit en attribution de scores ou par comparaison par paires ; même les modèles les plus performants, Gemini-2.5-Pro et GPT-5, échouent à maintenir des préférences cohérentes dans près d'un quart des cas difficiles. Nous attribuons cela à un nouveau phénomène appelé préférence situationnelle, qui explique pourquoi des grilles d'évaluation ou critères explicites peuvent aider le modèle à juger de manière cohérente entre les paires de réponses. Notre analyse approfondie montre qu'un LLM affiné en tant que juge est une méthode viable pour améliorer les performances, et qu'un juge collectif (panel-based) ainsi qu'un raisonnement profond peuvent renforcer la cohérence du jugement. Nous constatons également une incohérence substantielle dans les jugements humains, ce qui indique que l'annotation humaine pourrait ne pas être un étalon-or fiable.
Nous présentons RadarGen, un modèle de diffusion pour la synthèse de nuages de points radar automobiles réalistes à partir d'imagerie multicaméra. RadarGen adapte la diffusion efficace en espace latent d'image au domaine radar en représentant les mesures radar sous forme de vue de dessus (bird's-eye-view) qui encode la structure spatiale ainsi que la section efficace radar (SER) et les attributs Doppler. Une étape légère de reconstruction permet de retrouver les nuages de points à partir des cartes générées. Pour mieux aligner la génération avec la scène visuelle, RadarGen intègre des indices de profondeur, sémantiques et de mouvement, alignés en vue de dessus et extraits de modèles de fondation pré-entraînés, qui guident le processus de génération stochastique vers des motifs radar physiquement plausibles. Le conditionnement par les images rend l'approche largement compatible, en principe, avec les jeux de données visuels existants et les cadres de simulation, offrant une direction évolutive pour la simulation générative multimodale. Les évaluations sur des données de conduite à grande échelle montrent que RadarGen capture les distributions caractéristiques des mesures radar et réduit l'écart avec les modèles de perception entraînés sur des données réelles, marquant une étape vers une simulation générative unifiée à travers les modalités de détection.
L'ancrage visuel, qui consiste à localiser des objets à partir de descriptions en langage naturel, représente un pont essentiel entre la compréhension du langage et de la vision. Bien que les modèles de langage multimodaux (MLLM) obtiennent des scores impressionnants sur les benchmarks existants, une question fondamentale subsiste : les MLLM peuvent-ils véritablement ancrer le langage dans la vision avec la sophistication humaine, ou se contentent-ils de faire de l'appariement de motifs sur des jeux de données simplifiés ? Les benchmarks actuels ne capturent pas la complexité du monde réel où les humains naviguent sans effort parmi des références ambiguës et reconnaissent quand l'ancrage est impossible. Pour évaluer rigoureusement les véritables capacités des MLLM, nous présentons GroundingME, un benchmark qui met systématiquement les modèles au défi selon quatre dimensions critiques : (1) Discriminatoire, pour distinguer des objets très similaires, (2) Spatiale, pour comprendre les descriptions relationnelles complexes, (3) Limitée, pour gérer les occlusions ou les objets minuscules, et (4) Rejet, pour reconnaître les requêtes non ancrables. Grâce à une curation minutieuse combinant génération automatisée et vérification humaine, nous avons créé 1 005 exemples difficiles reflétant la complexité du monde réel. L'évaluation de 25 MLLM de pointe révèle un écart de capacité profond : le meilleur modèle n'atteint que 45,1 % de précision, tandis que la plupart obtiennent 0 % sur les tâches de rejet, produisant de manière réflexive des hallucinations d'objets plutôt que de reconnaître leur absence, ce qui soulève des préoccupations critiques pour le déploiement en termes de sécurité. Nous explorons deux stratégies d'amélioration : (1) la mise à l'échelle au moment du test, qui sélectionne la réponse optimale en utilisant la trajectoire de raisonnement pour améliorer l'ancrage complexe jusqu'à 2,9 %, et (2) l'entraînement par mélange de données, qui apprend aux modèles à reconnaître les requêtes non ancrables, augmentant la précision du rejet de 0 % à 27,9 %. GroundingME sert ainsi à la fois d'outil de diagnostic révélant les limitations actuelles des MLLM et de feuille de route vers un ancrage visuel de niveau humain.
Comprendre les différences architecturales des modèles de langage est complexe, particulièrement à l'échelle académique du pré-entraînement (par ex., 1,3 milliard de paramètres, 100 milliards de tokens), où les résultats sont souvent dominés par le bruit et l'aléatoire. Pour surmonter cela, nous introduisons des tâches de pré-entraînement synthétiques et contrôlées qui isolent et évaluent les capacités fondamentales des modèles. Dans ce cadre, nous découvrons les COUCHES CANON : des composants architecturaux légers — nommés d'après le terme musical « canon » — qui favorisent le flux d'information horizontal entre les tokens voisins. Les couches canon calculent des sommes pondérées des représentations des tokens proches et s'intègrent de manière transparente dans les Transformers, l'attention linéaire, les modèles à espace d'états, ou toute architecture séquentielle. Nous présentons 12 résultats clés. Ceux-ci incluent la manière dont les couches canon améliorent la profondeur de raisonnement (par ex., par un facteur 2), l'étendue du raisonnement, la manipulation des connaissances, etc. Elles permettent à des architectures faibles comme NoPE d'égaler RoPE, et à l'attention linéaire de rivaliser avec des modèles linéaires de pointe comme Mamba2/GDN — validé à la fois par des tâches synthétiques et un pré-entraînement réel à l'échelle académique. Ce terrain de jeu synthétique offre une voie économique et princiée pour isoler les capacités fondamentales des modèles, souvent masquées aux échelles académiques. Équipé de données de haute qualité en quantité infinie, il pourrait même PRÉDIRE comment les futures architectures se comporteront à mesure que les pipelines d'entraînement s'améliorent — par exemple via une meilleure curation des données ou un post-traitement par apprentissage par renforcement — déverrouillant un raisonnement plus profond et une inférence hiérarchique.
Les modèles Vision-Langage-Action (VLA) sont à l'origine d'une révolution en robotique, permettant aux machines de comprendre des instructions et d'interagir avec le monde physique. Ce domaine connaît une explosion de nouveaux modèles et jeux de données, rendant à la fois passionnant et difficile de suivre le rythme. Cette étude offre un guide clair et structuré du paysage des VLA. Nous l'avons conçue pour suivre le parcours d'apprentissage naturel d'un chercheur : nous commençons par les Modules de base de tout modèle VLA, retraçons l'histoire à travers les Jalons clés, puis plongeons au cœur des Défis fondamentaux qui définissent la frontière récente de la recherche. Notre principale contribution est une analyse détaillée des cinq plus grands défis dans les domaines : (1) Représentation, (2) Exécution, (3) Généralisation, (4) Sécurité, et (5) Jeux de données et Évaluation. Cette structure reflète la feuille de route développementale d'un agent généraliste : établir la boucle perception-action fondamentale, étendre les capacités à travers des incarnations et environnements divers, et enfin assurer un déploiement fiable – le tout soutenu par l'infrastructure de données essentielle. Pour chacun d'eux, nous passons en revue les approches existantes et soulignons les opportunités futures. Nous positionnons cet article à la fois comme un guide fondamental pour les nouveaux arrivants et comme une feuille de route stratégique pour les chercheurs expérimentés, avec le double objectif d'accélérer l'apprentissage et d'inspirer de nouvelles idées dans l'intelligence incarnée. Une version vivante de cette étude, avec des mises à jour continues, est maintenue sur notre {page du projet} https://suyuz1.github.io/Survery/.
L'apprentissage par renforcement (RL) réémerge comme une approche naturelle pour entraîner des agents LLM interactifs dans des environnements réels. Cependant, l'application directe de l'algorithme largement utilisé qu'est l'Optimisation de Politique par Groupe Relatif (GRPO) à des tâches multi-tours révèle des limitations notables, particulièrement dans les scénarios nécessitant un raisonnement à long terme. Pour relever ces défis, nous étudions des stratégies d'estimation de l'avantage plus stables et efficaces, spécialement pour les configurations multi-tours. Nous explorons d'abord l'Optimisation de Politique Proximale (PPO) comme alternative et constatons qu'elle est plus robuste que le GRPO. Pour améliorer encore les performances du PPO dans les scénarios multi-tours, nous présentons le turn-PPO, une variante qui opère sur une formulation MDP au niveau du tour, par opposition au MDP au niveau du token couramment utilisé. Nos résultats sur les jeux de données WebShop et Sokoban démontrent l'efficacité du turn-PPO, à la fois avec et sans composantes de raisonnement long.
Les modèles de langage de grande taille pour la vidéo (Video-LLMs) progressent rapidement, mais les benchmarks actuels de question-réponse vidéo (VideoQA) permettent souvent de répondre aux questions à partir d'un seul indice saillant, sous-évaluant ainsi le raisonnement qui nécessite l'agrégation de multiples preuves visuelles temporellement séparées. Nous présentons HERBench, un benchmark VideoQA conçu spécifiquement pour évaluer l'intégration de preuves multiples dans le temps. Chaque question nécessite l'agrégation d'au moins trois indices probants non chevauchants répartis sur des segments vidéo distincts, de sorte que ni les prérequis linguistiques ni un instantané unique ne suffisent. HERBench comprend 26 000 questions à choix multiples (cinq options) organisées en douze tâches compositionnelles qui sondent la liaison d'identité, les relations inter-entités, l'ordonnancement temporel, la vérification de co-occurrence et le décompte. Pour rendre la demande probante mesurable, nous introduisons l'Ensemble Minimal d'Images Requises (MRFS), soit le nombre minimal d'images qu'un modèle doit fusionner pour répondre correctement, et montrons qu'HERBench impose une exigence nettement plus élevée que les jeux de données antérieurs (MRFS moyen de 5,5 contre 2,6-4,2). L'évaluation de 13 Video-LLMs de pointe sur HERBench révèle des échecs généralisés : les précisions de 31 à 42 % ne dépassent que légèrement le taux de réussite aléatoire de base de 20 %. Nous décomposons cet échec en deux goulots d'étranglement critiques : (1) un déficit de récupération, où les sélecteurs d'images négligent des preuves clés, et (2) un déficit de fusion, où les modèles échouent à intégrer l'information même lorsque toutes les preuves nécessaires sont fournies. En rendant les preuves temporelles à la fois incontournables et quantifiables, HERBench établit une cible principielle pour faire progresser la compréhension vidéo compositionnelle et robuste.
Les récents progrès en modèles du monde ont considérablement amélioré la simulation interactive d'environnements. Les méthodes existantes se divisent principalement en deux catégories : (1) les modèles de génération de mondes statiques, qui construisent des environnements 3D sans agents actifs, et (2) les modèles à entités contrôlables, qui permettent à une seule entité d'effectuer des actions limitées dans un environnement autrement non contrôlable. Dans ce travail, nous présentons AniX, qui exploite le réalisme et l'ancrage structurel de la génération de mondes statiques tout en étendant les modèles à entités contrôlables pour prendre en charge des personnages spécifiés par l'utilisateur capables d'effectuer des actions ouvertes. Les utilisateurs peuvent fournir une scène 3DGS et un personnage, puis guider le personnage par langage naturel pour exécuter des comportements divers allant de la locomotion de base aux interactions centrées sur les objets tout en explorant librement l'environnement. AniX synthétise des clips vidéo temporellement cohérents qui préservent la fidélité visuelle avec la scène et le personnage fournis, formulés comme un problème de génération vidéo autogressive conditionnelle. Construite sur un générateur vidéo pré-entraîné, notre stratégie d'entraînement améliore significativement la dynamique du mouvement tout en maintenant la généralisation entre les actions et les personnages. Notre évaluation couvre un large éventail d'aspects, incluant la qualité visuelle, la cohérence des personnages, la contrôlabilité des actions et la cohérence à long terme.
Nous présentons Bolmo, la première famille de modèles de langage (ML) compétitifs entièrement ouverts au niveau des octets, aux échelles de 1 et 7 milliards de paramètres. Contrairement aux recherches antérieures sur les ML au niveau des octets, qui se concentrent principalement sur l'entraînement à partir de zéro, nous entraînons Bolmo en « octetifiant » des ML existants au niveau des sous-mots. L'octétification permet de surmonter les limitations de la tokenisation par sous-mots – telles que la compréhension insuffisante des caractères et les contraintes d'efficacité dues au vocabulaire fixe de sous-mots – tout en performant au niveau des meilleurs ML au niveau des sous-mots. Bolmo est spécifiquement conçu pour l'octétification : notre architecture résout un décalage entre l'expressivité des architectures antérieures au niveau des octets et celle des ML au niveau des sous-mots, ce qui permet d'employer un objectif de distillation exacte efficace entre Bolmo et le modèle source à sous-mots. Cela permet de convertir un ML au niveau des sous-mots en un ML au niveau des octets en investissant moins de 1 % du budget typique en tokens de pré-entraînement. Bolmo surpasse substantiellement tous les ML antérieurs au niveau des octets de taille comparable, et surpasse les ML sources au niveau des sous-mots dans la compréhension des caractères et, dans certains cas, en programmation, tout en approchant les performances des ML originaux sur d'autres tâches. De plus, nous montrons que Bolmo peut atteindre des vitesses d'inférence compétitives avec les ML au niveau des sous-mots en s'entraînant avec des taux de compression de tokens plus élevés, et peut être post-entraîné de manière économique et efficace en tirant parti de l'écosystème existant autour du modèle source à sous-mots. Nos résultats font enfin des ML au niveau des octets un choix pratique et compétitif face aux ML au niveau des sous-mots pour un large éventail de cas d'usage.
Des benchmarks comme SWE-bench ont standardisé l'évaluation des grands modèles de langage (LLM) sur des tâches de génie logiciel au niveau du dépôt de code. Cependant, ces efforts restent limités par une curation manuelle, des jeux de données statiques et une focalisation sur les corrections de bogues en Python. Nous présentons SWE-Bench++, un cadre automatisé qui génère des tâches de codage au niveau du dépôt à partir de projets GitHub open source. Contrairement aux approches synthétiques, notre pipeline collecte des demandes de tirage (pull requests) en direct pour couvrir à la fois les corrections de bogues et les demandes de fonctionnalités dans 11 langages. SWE-Bench++ transforme les demandes de tirage GitHub en tâches reproductibles et basées sur l'exécution via quatre étapes : l'approvisionnement programmatique, la synthèse de l'environnement, l'extraction d'oracles de test et l'assurance qualité. Une étape finale de synthèse de trajectoire guidée par des indices convertit les instances sur lesquelles les modèles performants échouent en trajectoires d'apprentissage. Notre benchmark initial se compose de 11 133 instances provenant de 3 971 dépôts couvrant 11 langages. Sur un sous-ensemble de 1 782 instances de ce benchmark, les modèles les plus performants d'aujourd'hui obtiennent les résultats suivants : claude-sonnet-4.5 atteint 36,20 % de pass@10, gpt-5-2025-08-07 34,57 %, gemini/gemini-2.5-pro 24,92 % et gpt-4o 16,89 %. Nous démontrons en outre l'utilité de notre jeu de données en montrant qu'un affinage (fine-tuning) sur les instances de SWE-Bench++ produit des améliorations mesurables sur le benchmark multilingue SWE-bench. SWE-Bench++ fournit un benchmark évolutif et multilingue pour évaluer et améliorer la génération de code au niveau du dépôt.
L'apprentissage par renforcement (RL) a permis d'entraîner des agents basés sur de grands modèles de langage (LLM) à interagir avec l'environnement pour résoudre des tâches séquentielles à long horizon. Cependant, ces agents entraînés par RL éprouvent souvent des difficultés dans les tâches nécessitant une exploration active et peinent à s'adapter efficacement à partir d'expériences par essais et erreurs. Dans cet article, nous présentons LaMer, un cadre Méta-RL général qui permet aux agents LLM d'explorer activement et d'apprendre des retours de l'environnement lors de la phase de test. LaMer comprend deux composants clés : (i) un cadre d'entraînement inter-épisodes pour encourager l'exploration et l'optimisation des récompenses à long terme ; et (ii) une adaptation de politique contextuelle par réflexion, permettant à l'agent d'adapter sa politique à partir du signal de retour de la tâche sans mise à jour par gradient. Les expériences menées dans divers environnements montrent que LaMer améliore significativement les performances par rapport aux méthodes de RL de référence, avec des gains de performances de 11 %, 14 % et 19 % sur Sokoban, MineSweeper et Webshop, respectivement. De plus, LaMer démontre également une meilleure généralisation pour des tâches plus difficiles ou non rencontrées précédemment par rapport aux agents entraînés par RL. Globalement, nos résultats démontrent que le Méta-RL offre une approche principée pour induire l'exploration chez les agents langagiers, permettant une adaptation plus robuste à de nouveaux environnements grâce à des stratégies d'exploration apprises.
La modélisation visuelle autorégressive (VAR) s'écarte du paradigme de prédiction de token suivant des modèles autorégressifs (AR) traditionnels grâce à la prédiction d'échelle suivante, permettant une génération d'images de haute qualité. Cependant, le paradigme VAR souffre d'une complexité computationnelle et d'un temps d'exécution fortement accrus à grande échelle. Bien que les méthodes d'accélération existantes réduisent le temps d'exécution pour les étapes à grande échelle, elles reposent sur une sélection manuelle des étapes et négligent l'importance variable des différentes phases du processus de génération. Pour relever ce défi, nous présentons StageVAR, une étude systématique et un cadre d'accélération conscient des phases pour les modèles VAR. Notre analyse montre que les premières étapes sont cruciales pour préserver la cohérence sémantique et structurelle et doivent rester intactes, tandis que les étapes ultérieures affinent principalement les détails et peuvent être élaguées ou approximées pour l'accélération. Sur la base de ces observations, StageVAR introduit une stratégie d'accélération plug-and-play qui exploite l'irrévérence sémantique et les propriétés de faible rang dans les calculs des phases tardives, sans nécessiter d'entraînement supplémentaire. Notre StageVAR proposé atteint une accélération jusqu'à 3,4x avec seulement une baisse de 0,01 sur GenEval et une diminution de 0,26 sur DPG, surpassant constamment les méthodes d'accélération de référence existantes. Ces résultats soulignent la conception consciente des phases comme un principe puissant pour une génération d'images visuelles autorégressives efficace.
Les modèles de langage multimodaux de grande taille peinent à maintenir des performances fiables face aux dégradations visuelles extrêmes du monde réel, ce qui compromet leur robustesse pratique. Les modèles robustes existants reposent principalement sur des approches d'entraînement/adaptation implicites qui se concentrent uniquement sur la généralisation de l'encodeur visuel, souffrant d'une interprétabilité limitée et d'une optimisation isolée. Pour surmonter ces limitations, nous proposons Robust-R1, un nouveau cadre qui modélise explicitement les dégradations visuelles par des chaînes de raisonnement structurées. Notre approche intègre : (i) un ajustement fin supervisé pour établir des bases de raisonnement sensibles aux dégradations, (ii) un alignement par récompense pour percevoir précisément les paramètres de dégradation, et (iii) une mise à l'échelle dynamique de la profondeur de raisonnement adaptée à l'intensité de la dégradation. Pour faciliter cette approche, nous présentons un jeu de données spécialisé de 11 000 éléments comportant des dégradations réalistes synthétisées selon quatre étapes critiques du traitement visuel réel, chacune annotée avec des chaînes structurées liant les paramètres de dégradation, l'influence perceptuelle, la chaîne de raisonnement sémantique originelle et la conclusion. Les évaluations exhaustives démontrent une robustesse de pointe : Robust-R1 surpasse toutes les bases de référence générales et robustes sur le benchmark de dégradation réaliste R-Bench, tout en maintenant des performances anti-dégradation supérieures sous des dégradations adverses multi-intensité sur MMMB, MMStar et RealWorldQA.
Les progrès récents en génération de scènes 3D produisent des résultats visuellement attrayants, mais les représentations actuelles entravent les flux de travail des artistes qui nécessitent des scènes modifiables de maillages 3D texturés pour les effets visuels et le développement de jeux. Malgré des avancées significatives, les méthodes actuelles de reconstruction de scènes par maillages texturés sont loin d'être prêtes pour les artistes, souffrant d'une décomposition incorrecte des objets, de relations spatiales imprécises et d'absences d'arrière-plans. Nous présentons 3D-RE-GEN, un cadre compositionnel qui reconstruit une image unique en objets 3D texturés et un arrière-plan. Nous montrons que la combinaison de modèles de pointe issus de domaines spécifiques permet d'atteindre des performances de pointe en reconstruction de scènes, répondant aux exigences des artistes. Notre pipeline de reconstruction intègre des modèles pour la détection d'assets, la reconstruction et le placement, poussant certains modèles au-delà de leurs domaines d'origine. L'obtention d'objets occlus est traitée comme une tâche de retouche d'image avec des modèles génératifs pour déduire et reconstruire avec un raisonnement au niveau de la scène sous un éclairage et une géométrie cohérents. Contrairement aux méthodes actuelles, 3D-RE-GEN génère un arrière-plan complet qui contraint spatialement les objets lors de l'optimisation et fournit une base pour des tâches réalistes d'éclairage et de simulation dans les effets visuels et les jeux. Pour obtenir des agencements physiquement réalistes, nous utilisons une nouvelle optimisation différentiable à 4 degrés de liberté qui aligne les objets reconstruits avec le plan de sol estimé. 3D-RE-GEN atteint des performances de pointe en reconstruction de scènes 3D à partir d'une seule image, produisant des scènes cohérentes et modifiables grâce à une génération compositionnelle guidée par une récupération précise de la caméra et une optimisation spatiale.
La compréhension multimodale de vidéos long-form nécessite l'intégration de la vision, de la parole et de l'audio ambiant avec un raisonnement cohérent à long terme. Les benchmarks existants privilégient soit la durée temporelle, soit la richesse multimodale, mais rarement les deux. Bien que certains intègrent des questions ouvertes et des métriques avancées, ils reposent principalement sur une précision à score unique, ce qui occulte les modes d'échec. Nous présentons LongShOTBench, un benchmark diagnostique comprenant des questions ouvertes et intentionnelles, des dialogues en un tour et plusieurs tours, ainsi que des tâches nécessitant un raisonnement multimodal et l'utilisation d'outils agentiques à travers la vidéo, l'audio et la parole. Chaque élément inclut une réponse de référence et une grille d'évaluation notée pour une évaluation interprétable et traçable. LongShOTBench est produit via un pipeline évolutif et validé par des humains pour garantir la couverture et la reproductibilité. Tous les échantillons de notre LongShOTBench sont vérifiés et corrigés manuellement. De plus, nous présentons LongShOTAgent, un système agentique qui analyse les vidéos longues via un prétraitement, une recherche et un raffinement itératif. Sur LongShOTBench, les MLLM de pointe affichent des écarts importants : Gemini-2.5-Flash atteint 52,95 %, les modèles open source restent en dessous de 30 %, et LongShOTAgent obtient 44,66 %. Ces résultats soulignent la difficulté de la compréhension réaliste des vidéos long-form. LongShOTBench fournit une base pratique et reproductible pour évaluer et améliorer les MLLM. Toutes les ressources sont disponibles sur GitHub : https://github.com/mbzuai-oryx/longshot.
Les modèles de génération d'images à partir de texte (TTI) produisent des images basées sur des invites textuelles, qui laissent souvent certains aspects de l'image souhaitée ambigus. Face à ces ambiguïtés, il a été démontré que les modèles TTI présentent des biais dans leurs interprétations. Ces biais peuvent avoir des impacts sociétaux, par exemple en ne montrant qu'une certaine ethnie pour une profession donnée. Ils peuvent également affecter l'expérience utilisateur en créant des redondances dans un ensemble d'images générées au lieu d'explorer des possibilités diverses. Nous présentons ici MineTheGap - une méthode pour extraire automatiquement les invites qui amènent un modèle TTI à produire des sorties biaisées. Notre méthode va au-delà de la simple détection des biais pour une invite donnée. Elle exploite plutôt un algorithme génétique pour affiner itérativement un pool d'invites, cherchant celles qui révèlent des biais. Ce processus d'optimisation est piloté par un nouveau score de biais, qui classe les biais selon leur gravité, comme nous le validons sur un jeu de données contenant des biais connus. Pour une invite donnée, ce score est obtenu en comparant la distribution des images générées à la distribution des textes générés par un LLM qui constituent des variations de l'invite. Le code et des exemples sont disponibles sur la page web du projet.