papers.description
Nous présentons MiroThinker v1.0, un agent de recherche open-source conçu pour faire progresser les capacités de raisonnement augmenté par outils et de recherche d'information. Contrairement aux agents précédents qui ne faisaient qu'augmenter la taille du modèle ou la longueur du contexte, MiroThinker explore la mise à l'échelle des interactions au niveau du modèle, en l'entraînant systématiquement à gérer des interactions agent-environnement plus profondes et plus fréquentes comme une troisième dimension d'amélioration des performances. Contrairement à la mise à l'échelle au moment des tests des LLM, qui fonctionne de manière isolée et risque une dégradation avec des chaînes de raisonnement plus longues, la mise à l'échelle interactive exploite les retours de l'environnement et l'acquisition d'informations externes pour corriger les erreurs et affiner les trajectoires. Grâce à l'apprentissage par renforcement, le modèle atteint une mise à l'échelle efficace des interactions : avec une fenêtre de contexte de 256K, il peut effectuer jusqu'à 600 appels d'outils par tâche, permettant un raisonnement soutenu multi-tours et des workflows de recherche complexes dans le monde réel. Sur quatre benchmarks représentatifs - GAIA, HLE, BrowseComp et BrowseComp-ZH - la variante 72B atteint respectivement une précision allant jusqu'à 81,9 %, 37,7 %, 47,1 % et 55,6 %, surpassant les agents open-source précédents et approchant les homologues commerciaux tels que GPT-5-high. Notre analyse révèle que MiroThinker bénéficie de manière constante de la mise à l'échelle interactive : les performances de recherche s'améliorent de manière prévisible à mesure que le modèle s'engage dans des interactions agent-environnement plus profondes et plus fréquentes, démontrant que la profondeur d'interaction présente des comportements de mise à l'échelle analogues à la taille du modèle et à la longueur du contexte. Ces résultats établissent la mise à l'échelle des interactions comme une troisième dimension cruciale pour construire la prochaine génération d'agents de recherche open-source, complétant la capacité du modèle et les fenêtres de contexte.
Les grands modèles de langage (LLM) ont démontré des capacités remarquables dans divers domaines, mais leur entraînement reste gourmand en ressources et en temps, nécessitant une puissance de calcul massive et une orchestration minutieuse des procédures d'apprentissage. Le « model souping » – pratique consistant à moyenner les poids de plusieurs modèles de même architecture – est apparu comme une technique prometteuse en pré- et post-entraînement permettant d'améliorer les performances sans recourir à un réentraînement coûteux. Dans cet article, nous présentons Soup Of Category Experts (SoCE), une approche méthodique de model souping qui utilise la composition de benchmarks pour identifier les modèles candidats optimaux et applique un moyennage pondéré non uniforme pour maximiser les performances. Contrairement aux approches précédentes de moyennage uniforme, notre méthode s'appuie sur l'observation que les catégories de benchmarks présentent souvent de faibles inter-corrélations dans les performances des modèles. SoCE identifie des modèles « experts » pour chaque groupe de catégories faiblement corrélées et les combine en utilisant un moyennage pondéré optimisé plutôt que des poids uniformes. Nous démontrons que la méthode proposée améliore les performances et la robustesse dans de multiples domaines, y compris les capacités multilingues, l'appel d'outils et les mathématiques, et obtient des résultats state-of-the-art sur le Berkeley Function Calling Leaderboard.
Les récents progrès dans les modèles de langage à grande échelle (LLMs) ont déplacé la frontière de la résolution de casse-têtes vers un raisonnement de niveau scientifique—le type nécessaire pour aborder des problèmes dont les réponses doivent résister à l'épreuve de la nature, et non simplement correspondre à un barème. La physique constitue le test le plus rigoureux de cette transition, car elle lie les symboles à la réalité de manière fondamentale, servant de pierre angulaire à la plupart des technologies modernes. Dans ce travail, nous parvenons à faire progresser la recherche en physique en développant des modèles de langage à grande échelle dotés de capacités exceptionnelles de raisonnement physique, excellant particulièrement dans la résolution de problèmes de physique de niveau Olympiade. Nous présentons P1, une famille de modèles de raisonnement physique open-source entièrement entraînés par apprentissage par renforcement (RL). Parmi eux, P1-235B-A22B est le premier modèle open-source à obtenir une performance de médaille d'or lors de la dernière Olympiade Internationale de Physique (IPhO 2025), et remporte 12 médailles d'or sur 13 compétitions internationales/régionales de physique en 2024/2025. P1-30B-A3B surpasse également presque tous les autres modèles open-source à l'IPhO 2025, obtenant une médaille d'argent. En étant équipé d'un cadre agentique PhysicsMinions, P1-235B-A22B+PhysicsMinions atteint la première place globale à l'IPhO 2025 et obtient le score moyen le plus élevé sur les 13 compétitions de physique. Outre la physique, les modèles P1 montrent également d'excellentes performances sur d'autres tâches de raisonnement comme les mathématiques et la programmation, démontrant ainsi la grande généralisabilité de la série P1.
Nous présentons Uni-MoE 2.0 de la famille Lychee. En tant que grand modèle omnimodal (OLM) entièrement open-source, il fait progresser considérablement la série Uni-MoE de Lychee dans la compréhension, le raisonnement et la génération multimodale centrés sur le langage. En nous appuyant sur l'architecture dense Qwen2.5-7B, nous construisons Uni-MoE-2.0-Omni à partir de zéro grâce à trois contributions principales : une conception MoE (Mixture-of-Experts) à capacité dynamique, une stratégie d'entraînement progressive renforcée par une stratégie de renforcement itérative, et une technique soigneusement élaborée d'appariement de données multimodales. Le modèle est capable de compréhension omnimodale, ainsi que de génération d'images, de texte et de parole. Sur le plan architectural, notre nouveau framework MoE équilibre l'efficacité computationnelle et les capacités pour 10 entrées cross-modales en utilisant des experts partagés, routés et nuls, tandis que notre RoPE 3D Omni-Modalité assure un alignement spatio-temporel cross-modal dans la couche d'auto-attention. Pour l'entraînement, après un pré-entraînement cross-modal, nous utilisons une stratégie de fine-tuning supervisé progressif qui active des experts spécifiques à une modalité, renforcée par une composition de données équilibrée et une méthode GSPO-DPO itérative pour stabiliser l'entraînement par apprentissage par renforcement et améliorer le raisonnement. Concernant les données, le modèle de base, entraîné sur environ 75 milliards de tokens de données multimodales open-source, est équipé de tokens spéciaux pour la génération de parole et d'images, lui permettant d'apprendre ces tâches génératives en conditionnant ses sorties sur des indices linguistiques. Une évaluation approfondie sur 85 benchmarks démontre que notre modèle atteint des performances à l'état de l'art (SOTA) ou très compétitives par rapport aux principaux OLMs, surpassant Qwen2.5-Omni (entraîné avec 1,2 billion de tokens) sur plus de 50 des 76 benchmarks. Les points forts incluent la compréhension vidéo (+7% en moyenne sur 8 benchmarks), la compréhension omnimodale (+7% en moyenne sur 4 benchmarks) et le raisonnement audiovisuel (+4%). Il fait également progresser le traitement de la parole de longue durée (réduction du WER de 4,2%) et mène dans le traitement d'image de bas niveau et la génération contrôlée sur 5 métriques.
Nous présentons Part-X-MLLM, un modèle multimodal de langage de grande taille natif en 3D qui unifie des tâches 3D variées en les formulant comme des programmes dans une grammaire exécutable structurée. Étant donné un nuage de points RGB et une instruction en langage naturel, notre modèle génère de manière autorégressive une séquence cohérente de tokens encodant des boîtes englobantes au niveau des pièces, des descriptions sémantiques et des commandes d'édition. Cette sortie structurée sert d'interface polyvalente pour piloter des modules aval conscients de la géométrie, permettant la génération et l'édition basées sur les pièces. En dissociant la planification symbolique de la synthèse géométrique, notre approche permet à tout moteur géométrique compatible d'être contrôlé via une interface unique native en langage naturel. Nous pré-entraînons une architecture à double encodeur pour dissocier la structure de la sémantique et affinons le modèle par instruction sur un jeu de données massif centré sur les pièces. Les expériences démontrent que notre modèle excelle à produire des plans structurés de haute qualité, permettant des performances de pointe en Q\&R ancrée, en génération compositionnelle et en édition localisée via une interface unifiée. Page du projet : https://chunshi.wang/Part-X-MLLM/
Alors que la génération avec raisonnement vise à améliorer les performances sur des tâches complexes, nous identifions un mode d'échec critique où les approches séquentielles autorégressives existantes peuvent paradoxalement dégrader les performances en raison de la propagation d'erreurs. Pour analyser systématiquement ce problème, nous proposons ParaBench, un nouveau benchmark conçu pour évaluer les modalités de sortie textuelle et image. Notre analyse utilisant ParaBench révèle que cette dégradation des performances est fortement corrélée avec un mauvais alignement entre le raisonnement généré et l'image finale. Pour résoudre ce problème, nous proposons un framework de diffusion multimodale parallèle, MMaDA-Parallel, qui permet une interaction continue et bidirectionnelle entre le texte et les images tout au long de la trajectoire de bruitage inverse. MMaDA-Parallel est entraîné par fine-tuning supervisé puis optimisé par l'Apprentissage par Renforcement Parallèle (ParaRL), une nouvelle stratégie qui applique des récompenses sémantiques le long de la trajectoire pour renforcer la cohérence intermodale. Les expériences valident que notre modèle améliore significativement l'alignement intermodal et la cohérence sémantique, obtenant une amélioration de 6,9 % de l'Alignement de Sortie sur ParaBench par rapport au modèle de l'état de l'art, Bagel, établissant un paradigme plus robuste pour la synthèse d'images avec raisonnement. Notre code est open-source à l'adresse https://github.com/tyfeld/MMaDA-Parallel.
Les modèles de diffusion par débruitage actuels ne « débruitent » pas au sens classique, c'est-à-dire qu'ils ne prédisent pas directement des images propres. Au contraire, les réseaux neuronaux prédisent du bruit ou une quantité bruitée. Dans cet article, nous suggérons que prédire des données propres et prédire des quantités bruitées sont fondamentalement différents. Selon l'hypothèse de la variété, les données naturelles devraient se situer sur une variété de faible dimension, ce qui n'est pas le cas des quantités bruitées. Forts de cette hypothèse, nous préconisons des modèles qui prédisent directement les données propres, permettant ainsi à des réseaux apparemment sous-dimensionnés d'opérer efficacement dans des espaces de très haute dimension. Nous montrons que des Transformers simples à grandes patchs sur les pixels peuvent être des modèles génératifs puissants : sans tokeniseur, sans pré-entraînement et sans perte supplémentaire. Notre approche n'est conceptuellement rien de plus que « Juste des Transformers sur images », ou JiT, comme nous l'appelons. Nous rapportons des résultats compétitifs avec JiT utilisant des tailles de patchs importantes de 16 et 32 sur ImageNet aux résolutions 256 et 512, là où la prédiction de quantités bruitées en haute dimension peut échouer catastrophiquement. En ramenant nos réseaux aux fondamentaux de la variété, notre recherche revient à l'essentiel et poursuit un paradigme autonome pour la diffusion basée sur les Transformers appliquée aux données naturelles brutes.
Les grands modèles de langage ont démontré un fort potentiel en tant que rerankeurs pour améliorer les performances globales des systèmes RAG. Cependant, les paradigmes de reranking existants sont limités par un dilemme théorique et pratique fondamental : les méthodes Pointwise, bien que simples et très flexibles, évaluent les documents indépendamment, ce qui les rend vulnérables au « piège de la myopie du classement » (Ranking Myopia Trap), négligeant l'importance relative entre les documents. En revanche, les méthodes Listwise peuvent percevoir le contexte global du classement, mais souffrent d'une rigidité de liste (List Rigidity) inhérente, entraînant de graves problèmes d'évolutivité et de flexibilité lors du traitement de grands ensembles de candidats. Pour relever ces défis, nous proposons Groupwise, un nouveau paradigme de reranking. Dans cette approche, la requête et un groupe de documents candidats sont conjointement introduits dans le modèle, qui effectue des comparaisons intra-groupe pour attribuer un score de pertinence individuel à chaque document. Cette conception conserve la flexibilité des méthodes Pointwise tout en permettant la capacité comparative des méthodes Listwise. Nous adoptons en outre GRPO pour l'entraînement du modèle, équipé d'une fonction de récompense hétérogène qui intègre des métriques de classement avec une récompense distributionnelle visant à aligner les distributions de scores entre les groupes. Pour surmonter le goulot d'étranglement causé par la rareté des données étiquetées de haute qualité, nous proposons en outre une pipeline innovante pour synthétiser des données de recherche et de classement de haute qualité. Les données résultantes peuvent être exploitées non seulement pour entraîner le rerankeur, mais aussi pour entraîner le système de recherche. Des expériences approfondies valident l'efficacité de notre approche. Sur deux benchmarks de recherche intensifs en raisonnement, BRIGHT et R2MED.
La modélisation 3D évolue des représentations visuelles statiques vers des ressources physiques articulées pouvant être utilisées directement en simulation et interaction. Cependant, la plupart des méthodes de génération 3D existantes négligent les propriétés physiques et d'articulation essentielles, limitant ainsi leur utilité pour l'IA incarnée. Pour combler cette lacune, nous présentons PhysX-Anything, le premier cadre génératif physique 3D prêt pour la simulation qui, à partir d'une seule image en conditions réelles, produit des ressources 3D de haute qualité avec une géométrie, une articulation et des attributs physiques explicites. Spécifiquement, nous proposons le premier modèle génératif physique 3D basé sur un VLM, ainsi qu'une nouvelle représentation 3D qui tokenise efficacement la géométrie. Cette méthode réduit le nombre de tokens par un facteur 193, permettant l'apprentissage explicite de la géométrie dans les budgets standards de tokens VLM sans introduire de tokens spéciaux lors du fine-tuning, tout en améliorant significativement la qualité générative. De plus, pour pallier la diversité limitée des jeux de données physiques 3D existants, nous construisons un nouveau dataset, PhysX-Mobility, qui étend les catégories d'objets des jeux de données physiques 3D antérieurs par plus de 2x et inclut plus de 2000 objets courants du monde réel avec des annotations physiques riches. Des expériences approfondies sur PhysX-Mobility et des images en conditions réelles démontrent que PhysX-Anything offre d'excellentes performances génératives et une robuste généralisation. Par ailleurs, des expériences basées sur la simulation dans un environnement de type MuJoCo valident que nos ressources prêtes pour la simulation peuvent être directement utilisées pour l'apprentissage de politiques robotiques avec contacts riches. Nous estimons que PhysX-Anything peut considérablement renforcer un large éventail d'applications en aval, particulièrement dans l'IA incarnée et la simulation physique.
L'évolution rapide des modèles génératifs vidéo a déplacé leur objectif de la production de résultats visuellement plausibles vers la résolution de tâches exigeant une plausibilité physique et une cohérence logique. Cependant, malgré les récentes avancées telles que le raisonnement par chaîne d'images de Veo 3, il reste incertain si ces modèles peuvent manifester des capacités de raisonnement similaires aux grands modèles de langage (LLM). Les benchmarks existants évaluent principalement la fidélité visuelle et la cohérence temporelle, sans capturer les capacités de raisonnement d'ordre supérieur. Pour combler cette lacune, nous proposons TiViBench, un benchmark hiérarchique spécialement conçu pour évaluer les capacités de raisonnement des modèles de génération image-à-vidéo (I2V). TiViBench évalue systématiquement le raisonnement selon quatre dimensions : i) Raisonnement structurel et recherche, ii) Raisonnement spatial et reconnaissance de motifs visuels, iii) Raisonnement symbolique et logique, et iv) Planification d'actions et exécution de tâches, couvrant 24 scénarios de tâches variés répartis sur 3 niveaux de difficulté. Par des évaluations approfondies, nous montrons que les modèles commerciaux (ex. Sora 2, Veo 3.1) démontrent un potentiel de raisonnement plus robuste, tandis que les modèles open-source révèlent un potentiel inexploité qui reste entravé par une échelle d'entraînement et une diversité de données limitées. Pour libérer davantage ce potentiel, nous introduisons VideoTPO, une stratégie simple mais efficace d'optimisation en phase de test inspirée de l'optimisation des préférences. En réalisant une auto-analyse par LLM des candidats générés pour identifier leurs forces et faiblesses, VideoTPO améliore significativement les performances de raisonnement sans nécessiter d'entraînement supplémentaire, de données ou de modèles de récompense. Ensemble, TiViBench et VideoTPO ouvrent la voie à l'évaluation et au progrès du raisonnement dans les modèles de génération vidéo, établissant une base pour les recherches futures dans ce domaine émergent.
Les cadres de test d'intrusion automatisés pour les modèles de langage de grande taille (LLM) sont devenus de plus en plus sophistiqués, mais ils partagent une limitation fondamentale : leur logique de contournement est confinée à la sélection, la combinaison ou l'affinement de stratégies d'attaque préexistantes. Cela entrave leur créativité et les rend incapables d'inventer de manière autonome de nouveaux mécanismes d'attaque entièrement nouveaux. Pour combler cette lacune, nous présentons EvoSynth, un cadre autonome qui opère un changement de paradigme, passant de la planification d'attaques à la synthèse évolutive de méthodes de contournement. Au lieu d'affiner des invites, EvoSynth utilise un système multi-agents pour concevoir, faire évoluer et exécuter de manière autonome de nouveaux algorithmes d'attaque basés sur du code. Fait crucial, il intègre une boucle d'auto-correction au niveau du code, lui permettant de réécrire itérativement sa propre logique d'attaque en réponse à un échec. Par des expériences approfondies, nous démontrons qu'EvoSynth établit non seulement un nouvel état de l'art en atteignant un taux de réussite d'attaque (ASR) de 85,5 % contre des modèles très robustes comme Claude-Sonnet-4.5, mais génère également des attaques significativement plus diversifiées que celles des méthodes existantes. Nous publions notre cadre pour faciliter les recherches futures dans cette nouvelle direction de la synthèse évolutive des méthodes de contournement. Le code est disponible à l'adresse : https://github.com/dongdongunique/EvoSynth.
Les agents pilotés par des grands modèles de langage (LLM) transforment les appareils numériques d'outils passifs en collaborateurs intelligents et proactifs. Cependant, la plupart des frameworks existants restent confinés à un seul système d'exploitation ou appareil, rendant les workflows inter-appareils fragiles et largement manuels. Nous présentons UFO^3, un système qui unifie des terminaux hétérogènes – postes de travail, serveurs, appareils mobiles et périphériques edge – en une structure d'orchestration unique. UFO^3 modélise chaque requête utilisateur comme une Constellation de Tâches mutable : un graphe orienté acyclique (DAG) distribué de sous-tâches atomiques (TaskStars) avec des dépendances explicites de contrôle et de données (TaskStarLines). La Constellation de Tâches évolue continuellement à mesure que les résultats affluent des appareils distribués, permettant une exécution asynchrone, une récupération adaptative et une optimisation dynamique. Un Orchestrateur de Constellation exécute les tâches de manière sûre et asynchrone tout en appliquant des mises à jour dynamiques du DAG, et le Protocole d'Interaction Agent (AIP) fournit des canaux persistants à faible latence pour une distribution fiable des tâches et un streaming des résultats. Ces conceptions dissolvent les frontières traditionnelles entre les appareils et les plates-formes, permettant aux agents de collaborer de manière transparente et d'amplifier leur intelligence collective. Nous évaluons UFO^3 sur NebulaBench, un benchmark de 55 tâches inter-appareils réparties sur 5 machines et 10 catégories. UFO^3 atteint un taux d'achèvement des sous-tâches de 83,3 %, un taux de réussite des tâches de 70,9 %, expose un parallélisme avec une largeur moyenne de 1,72 et réduit la latence de bout en bout de 31 % par rapport à une base de référence séquentielle. Des expériences d'injection de fautes démontrent une dégradation et une récupération gracieuses sous des défaillances d'agents transitoires et permanentes. Ces résultats montrent qu'UFO^3 réalise une orchestration de tâches précise, efficace et résiliente sur des appareils hétérogènes, unissant des agents isolés en une structure de calcul cohérente et adaptative qui s'étend sur l'ensemble du paysage de l'informatique omniprésente.
Les modèles vision-langage-action (VLA) ont récemment démontré des performances prometteuses sur diverses tâches incarnées, mais ils pêchent encore en fiabilité et en généralisation, particulièrement lorsqu'ils sont déployés sur différentes embodiments ou dans des environnements réels. Dans ce travail, nous présentons NORA-1.5, un modèle VLA construit à partir de l'architecture pré-entraînée NORA en lui ajoutant un expert d'action basé sur l'appariement de flux. Cette seule amélioration architecturale apporte des gains substantiels de performance, permettant à NORA-1.5 de surpasser NORA et plusieurs modèles VLA de pointe sur des benchmarks en simulation et dans le monde réel. Pour renforcer la robustesse et le succès des tâches, nous développons un ensemble de modèles de récompense pour le post-entraînement des politiques VLA. Nos récompenses combinent (i) un modèle du monde conditionné par l'action qui évalue si les actions générées mènent vers l'objectif désiré, et (ii) une heuristique d'écart à la vérité terrain qui distingue les bonnes actions des mauvaises. En utilisant ces signaux de récompense, nous construisons des ensembles de données de préférences et adaptons NORA-1.5 à des embodiments cibles via l'optimisation directe des préférences (DPO). Des évaluations approfondies montrent que le post-entraînement guidé par les récompenses améliore constamment les performances en simulation et sur robots réels, démontrant des gains significatifs de fiabilité des modèles VLA grâce à des modèles de récompense simples mais efficaces. Nos résultats soulignent que NORA-1.5 et le post-entraînement guidé par récompense constituent une voie viable vers des agents incarnés plus fiables, adaptés à un déploiement réel.
La famille de modèles Segment Anything (SAM) est devenue un modèle de vision fondamental largement adopté, mais sa capacité à contrôler la granularité de la segmentation reste limitée. Les utilisateurs doivent souvent affiner manuellement les résultats - en ajoutant plus d'invites ou en sélectionnant parmi des masques pré-générés - pour obtenir le niveau de détail souhaité. Ce processus peut être ambigu, car la même invite peut correspondre à plusieurs masques plausibles, et la collecte d'annotations denses sur toutes les granularités est prohibitivement coûteuse, rendant les solutions supervisées irréalisables. Pour résoudre cette limitation, nous présentons UnSAMv2, qui permet de segmenter n'importe quoi à n'importe quelle granularité sans annotations humaines. UnSAMv2 étend la stratégie diviser-pour-régner d'UnSAM en découvrant de nombreuses paires masque-granularité et en introduisant un nouveau plongement de contrôle de granularité permettant un contrôle continu et précis de l'échelle de segmentation. Fait remarquable, avec seulement 6 000 images non étiquetées et 0,02 % de paramètres supplémentaires, UnSAMv2 améliore considérablement SAM-2, permettant une segmentation à toute granularité dans les tâches de segmentation interactive, d'image entière et vidéo. Évalué sur plus de 11 benchmarks, UnSAMv2 améliore le NoC₉₀ (5,69 → 4,75), le 1-IoU (58,0 → 73,1) et l'AR₁₀₀₀ (49,6 → 68,3), démontrant que de petites quantités de données non étiquetées avec une méthode d'apprentissage auto-supervisé sensible à la granularité peuvent libérer le potentiel des modèles de vision fondamentaux.
Les agents multimodaux alimentés par des LLM ont récemment démontré des capacités impressionnantes en navigation web, permettant d'accomplir des tâches de navigation complexes dans divers domaines. Cependant, les agents actuels peinent avec des erreurs répétitives et manquent de capacité à apprendre des expériences passées entre les sessions, limitant ainsi leur robustesse à long terme et leur efficacité d'échantillonnage. Nous présentons WebCoach, un cadre auto-évolutif indépendant du modèle qui équipe les agents de navigation web d'une mémoire persistante inter-sessions, permettant une meilleure planification à long terme, une réflexion et un apprentissage continu sans réentraînement. WebCoach se compose de trois éléments clés : (1) un WebCondenser, qui standardise les journaux de navigation bruts en résumés concis ; (2) un Stockage de Mémoire Externe, qui organise les trajectoires complètes comme expériences épisodiques ; et (3) un Coach, qui récupère les expériences pertinentes basées sur la similarité et la récence, et décide d'injecter ou non des conseils spécifiques à la tâche dans l'agent via des hooks d'exécution. Cette conception permet aux agents web d'accéder à une mémoire à long terme au-delà de leur fenêtre de contexte native, améliorant la robustesse dans les tâches de navigation complexes. De plus, WebCoach réalise une auto-évolution en organisant continuellement la mémoire épisodique à partir de nouvelles trajectoires de navigation, permettant aux agents de s'améliorer au fil du temps sans réentraînement. Les évaluations sur le benchmark WebVoyager démontrent que WebCoach améliore constamment les performances des agents utilisant un navigateur sur trois backbones LLM différents. Avec un modèle 38B, il augmente les taux de réussite des tâches de 47% à 61% tout en réduisant ou maintenant le nombre moyen d'étapes. Notamment, les modèles de base plus petits avec WebCoach atteignent des performances comparables au même agent web utilisant GPT-4o.
Les données d'observation de la Terre présentent un défi unique : elles sont spatiales comme les images, séquentielles comme la vidéo ou le texte, et hautement multimodales. Nous présentons OlmoEarth : un modèle fondateur multimodal spatio-temporel qui utilise une nouvelle formulation d'apprentissage auto-supervisé, une stratégie de masquage et une fonction de perte conçus spécifiquement pour le domaine de l'observation terrestre. OlmoEarth obtient des performances de pointe par rapport à 12 autres modèles fondateurs sur divers benchmarks de recherche et tâches du monde réel provenant de partenaires externes. Lors de l'évaluation des embeddings, OlmoEarth obtient les meilleures performances sur 15 des 24 tâches, et avec un ajustement fin complet, il est le meilleur sur 19 des 29 tâches. Nous déployons OlmoEarth comme épine dorsale d'une plateforme de bout en bout pour la collecte, l'étiquetage, l'entraînement et l'inférence des modèles d'observation de la Terre. La Plateforme OlmoEarth met des modèles fondateurs de pointe et des outils puissants de gestion des données entre les mains des organisations à but non lucratif et des ONG qui travaillent à résoudre les plus grands problèmes mondiaux. Le code source, les données d'entraînement et les poids pré-entraînés d'OlmoEarth sont disponibles à l'adresse https://github.com/allenai/olmoearth_pretrain.
Les modèles de langage de grande taille (LLM) sont en train de remodeler presque toutes les industries, y compris le génie logiciel. Ces dernières années, plusieurs agents basés sur des LLM ont été proposés pour résoudre des problèmes logiciels réels. Ces agents logiciels sont généralement équipés d'une suite d'outils de codage et peuvent décider de manière autonome des actions suivantes pour former des trajectoires complètes afin de résoudre des tâches logicielles de bout en bout. Bien que prometteurs, ils nécessitent généralement une conception dédiée et peuvent encore être sous-optimaux, car il peut être extrêmement difficile et coûteux d'explorer exhaustivement l'espace de conception complet des échafaudages d'agents. Reconnaissant que les agents logiciels sont intrinsèquement des logiciels eux-mêmes qui peuvent être affinés/modifiés, les chercheurs ont récemment proposé un certain nombre d'agents logiciels auto-améliorants, notamment la Machine de Darwin-Gödel (DGM). Cependant, ces agents auto-améliorants nécessitent un apprentissage hors ligne coûteux sur des benchmarks spécifiques et peuvent ne pas bien généraliser à travers différents LLM ou benchmarks. Dans cet article, nous proposons Live-SWE-agent, le premier agent logiciel "vivant" capable d'évoluer de manière autonome et continue en temps réel pendant son exécution lors de la résolution de problèmes logiciels réels. Plus spécifiquement, Live-SWE-agent commence avec l'échafaudage d'agent le plus basique n'ayant accès qu'à des outils bash (par exemple, mini-SWE-agent), et fait évoluer de manière autonome sa propre implémentation d'échafaudage tout en résolvant des problèmes logiciels réels. Notre évaluation sur le benchmark largement étudié SWE-bench Verified montre que Live-SWE-agent peut atteindre un taux de résolution impressionnant de 75,4 % sans mise à l'échelle au moment du test, surpassant tous les agents logiciels open-source existants et approchant les performances de la meilleure solution propriétaire. De plus, Live-SWE-agent surpasse les agents logiciels artisanaux de pointe sur le récent benchmark SWE-Bench Pro, atteignant le meilleur taux de résolution connu de 45,8 %.
L'apprentissage en contexte (ICL) – la capacité d'un modèle à inférer et à appliquer des motifs abstraits à partir d'exemples fournis dans son entrée – a été largement étudié dans les grands modèles de langage entraînés à la prédiction du token suivant sur du texte humain. En fait, les travaux antérieurs attribuent souvent ce comportement émergent à des propriétés statistiques distinctives du langage humain. Cela soulève une question fondamentale : l'ICL peut-il émerger organiquement dans d'autres domaines de séquences, uniquement par un entraînement prédictif à grande échelle ? Pour explorer cela, nous nous tournons vers les séquences génomiques, un domaine symbolique alternatif riche en structure statistique. Plus précisément, nous étudions le modèle génomique Evo2, entraîné principalement sur la prédiction du nucléotide suivant (A/T/C/G), à une échelle comparable aux modèles de langage de taille moyenne. Nous développons un cadre expérimental contrôlé comprenant des tâches de raisonnement symbolique instanciées sous des formes linguistiques et génomiques, permettant une comparaison directe de l'ICL entre modèles génomiques et linguistiques. Nos résultats montrent que les modèles génomiques, comme leurs homologues linguistiques, présentent des gains log-linéaires dans l'induction de motifs à mesure que le nombre de démonstrations en contexte augmente. À notre connaissance, il s'agit de la première preuve d'un ICL émergent organique dans des séquences génomiques, soutenant l'hypothèse selon laquelle l'ICL émerge comme une conséquence de la modélisation prédictive à grande échelle sur des données riches. Ces résultats étendent l'apprentissage méta émergent au-delà du langage, pointant vers une vision unifiée et agnostique à la modalité de l'apprentissage en contexte.
Les grands modèles de langage (LLM) ont considérablement fait progresser les systèmes de question-réponse sur graphes de connaissances (KGQA). Cependant, les systèmes existants sont généralement optimisés pour renvoyer des réponses pertinentes mais prévisibles. Une capacité manquante mais souhaitée est d'exploiter les LLM pour suggérer des réponses surprenantes et nouvelles (« sérendipiteuses »). Dans cet article, nous définissons formellement la tâche de KGQA prenant en compte la sérendipité et proposons le cadre SerenQA pour évaluer la capacité des LLM à découvrir des insights inattendus dans les tâches de KGQA scientifique. SerenQA inclut une métrique rigoureuse de sérendipité basée sur la pertinence, la nouveauté et la surprise, ainsi qu'un benchmark annoté par des experts dérivé du Graphe de Connaissances Cliniques, axé sur le repositionnement de médicaments. De plus, il comporte un pipeline d'évaluation structuré couvrant trois sous-tâches : la récupération de connaissances, le raisonnement sur sous-graphe et l'exploration de la sérendipité. Nos expériences révèlent que si les LLM de pointe performent bien en récupération, ils peinent encore à identifier des découvertes véritablement surprenantes et précieuses, soulignant une marge d'amélioration significative pour le futur. Nos ressources compilées et notre version étendue sont disponibles à l'adresse : https://cwru-db-group.github.io/serenQA.
Les modèles vision-langage (VLM) excellent en inférence zero-shot mais se dégradent souvent face à des décalages de domaine en phase de test. C'est pourquoi des stratégies d'adaptation épisodique en temps de test ont récemment émergé comme des techniques puissantes pour adapter les VLM à une seule image non étiquetée. Cependant, les stratégies d'adaptation existantes, comme l'ajustement d'invites en temps de test, nécessitent généralement de rétropropager à travers les poids des grands encodeurs ou de modifier les composants fondamentaux du modèle. Dans ce travail, nous présentons Spectrum-Aware Test-Time Steering (STS), un cadre d'adaptation léger qui extrait un sous-espace spectral des embeddings textuels pour définir des directions sémantiques principales et apprend à orienter les représentations latentes de manière consciente du spectre en adaptant un petit nombre de paramètres de décalage par échantillon pour minimiser l'entropie entre des vues augmentées. STS opère entièrement lors de l'inférence dans l'espace latent, sans rétropropagation à travers les encodeurs figés ni modification de ceux-ci. En nous appuyant sur des protocoles d'évaluation standard, nos expériences approfondies démontrent que STS surpasse largement ou se compare favorablement aux méthodes d'adaptation en temps de test les plus avancées, tout en n'introduisant qu'une poignée de paramètres supplémentaires et en atteignant des vitesses d'inférence jusqu'à 8 fois plus rapides avec une empreinte mémoire 12 fois plus faible que l'ajustement d'invites en temps de test conventionnel. Le code est disponible à l'adresse https://github.com/kdafnis/STS.
Les modèles de grands langages multimodaux sont de plus en plus appliqués à l'imagerie biomédicale, mais le raisonnement scientifique en microscopie reste limité par la rareté de données d'entraînement à grande échelle et de haute qualité. Nous présentons MicroVQA++, un corpus VQA de microscopie à grande échelle et de haute qualité, construit en trois étapes à partir des archives BIOMEDICA. La première étape amorce la supervision à partir de paires figure-légende validées par des experts, issues d'articles évalués par les pairs. La deuxième étape applique HiCQA-Graph, un nouveau graphe hétérogène sur les images, légendes et paires question-réponse, qui fusionne l'implication textuelle basée sur NLI, l'alignement vision-langage basé sur CLIP et des signaux d'agents pour identifier et filtrer les échantillons incohérents. La troisième étape utilise un agent de modèle de grand langage multimodal (MLLM) pour générer des questions à choix multiples (QCM), suivie d'un filtrage humain. La version résultante comprend un large ensemble d'entraînement et un ensemble de test vérifié par des humains, dont la distribution d'échantillons difficiles selon le niveau de Bloom dépasse celle du benchmark MicroVQA. Notre travail fournit (i) un jeu de données contrôlé en qualité qui associe la littérature experte à un filtrage basé sur les graphes et un raffinement humain ; (ii) HiCQA-Graph, le premier graphe modélisant conjointement (image, légende, QA) pour le filtrage de la cohérence cross-modale ; (iii) la preuve qu'une construction minutieuse des données permet à des MLLMs de l'échelle des 4B d'atteindre des performances compétitives en raisonnement microscopique (par exemple, comparables à GPT-5) et d'obtenir des performances de pointe parmi les MLLMs open-source. Le code et le jeu de données seront publiés à l'issue du processus d'examen.
Les grands modèles de langage (LLM) ont démontré des performances remarquables sur un large éventail de tâches, mais la majorité des modèles les plus performants restent fermés ou partiellement ouverts, limitant ainsi la transparence et la reproductibilité. Dans ce travail, nous présentons Instella, une famille de modèles de langage entièrement ouverts de trois milliards de paramètres, entraînés exclusivement sur des données et une base de code librement accessibles. Propulsé par les GPU AMD Instinct MI300X, Instella est développé grâce à un pré-entraînement à grande échelle, un réglage par instructions polyvalent et un alignement sur les préférences humaines. Bien qu'il utilise un nombre de tokens de pré-entraînement substantiellement inférieur à celui de nombreux modèles contemporains, Instella obtient des résultats de pointe parmi les modèles entièrement ouverts et est compétitif avec les principaux modèles à poids ouverts de taille comparable. Nous publions en outre deux variantes spécialisées : Instella-Long, capable de traiter des contextes allant jusqu'à 128 000 tokens, et Instella-Math, un modèle axé sur le raisonnement, amélioré par un apprentissage supervisé et par renforcement sur des tâches mathématiques. Ensemble, ces contributions établissent Instella comme une alternative transparente, performante et polyvalente pour la communauté, faisant progresser l'objectif de recherche ouverte et reproductible sur la modélisation du langage.
Les modèles de langage multimodaux (MLLM) ont démontré des capacités impressionnantes de raisonnement et de suivi d'instructions, mais leur espace modal élargi introduit de nouveaux risques de sécurité compositionnelle émergeant d'interactions texte-image complexes. Ces couplages multimodaux peuvent produire une sémantique dangereuse même lorsque les entrées individuelles sont bénignes, révélant la fragile conscience sécuritaire des MLLM actuels. Si des travaux récents améliorent la sécurité en guidant les modèles à raisonner sur les risques potentiels, des traces de raisonnement non régulées peuvent compromettre l'alignement ; bien que l'optimisation de politique relative par groupe (GRPO) offre un raffinement auto-récompensé sans supervision humaine, elle manque de signaux vérifiables pour la sécurité du raisonnement. Pour y remédier, nous proposons SafeGRPO, un cadre d'alignement sécuritaire multimodal auto-récompensé qui intègre une construction de récompense régie par des règles dans GRPO, permettant une optimisation interprétable et vérifiable de la sécurité du raisonnement. Construit sur l'ensemble de données SafeTag-VL-3K comportant des étiquettes de sécurité visuelles, textuelles et combinées explicites, SafeGRPO effectue une réflexion sécuritaire guidée par étapes pour imposer un raisonnement structuré et un alignement comportemental, améliorant substantiellement la conscience sécuritaire multimodale, la robustesse compositionnelle et la stabilité du raisonnement sur divers benchmarks sans sacrifier les capacités générales.
L'alignement des représentations issues de différentes modalités a récemment démontré son utilité pour appréhender les similarités structurelles et les capacités en aval de différents encodeurs à travers divers types de données. Bien que des progrès significatifs aient été réalisés dans l'alignement d'images avec du texte, la nature temporelle des données vidéo reste largement inexplorée dans ce contexte. Dans ce travail, nous menons la première étude exhaustive de l'alignement des représentations vidéo-texte, sondant les capacités des encodeurs vidéo et linguistiques modernes. Nos résultats révèlent plusieurs observations clés. Premièrement, nous démontrons que l'alignement intermodal dépend fortement de la richesse des données visuelles (images statiques vs. vidéos multi-images) et textuelles (légende unique vs. collection) fournies au moment du test, particulièrement lors de l'utilisation d'encodeurs vidéo de pointe. Nous proposons des lois d'échelle paramétriques au moment du test qui capturent ce comportement et montrent un pouvoir prédictif remarquable face aux observations empiriques. Deuxièmement, nous étudions la corrélation entre l'alignement sémantique et les performances sur des tâches en aval sémantiques et non sémantiques, fournissant des preuves initiales qu'un fort alignement avec les encodeurs de texte pourrait être lié à une représentation vidéo et une compréhension polyvalentes. Enfin, nous corrélons le raisonnement temporel avec l'alignement intermodal, offrant ainsi un banc d'essai exigeant pour les modèles de vision et de langage. Globalement, notre travail introduit l'alignement vidéo-texte comme une méthode zero-shot informative pour sonder la puissance de représentation de différents encodeurs pour les données spatio-temporelles. La page du projet est disponible à l'adresse https://video-prh.github.io/
Alors que les modèles de langage de grande taille (LLM) évoluent vers des agents autonomes sophistiqués capables de réaliser des tâches complexes de développement logiciel, l'évaluation de leurs capacités en conditions réelles devient cruciale. Si les benchmarks existants comme LoCoBench~qiu2025locobench évaluent la compréhension de code à long contexte, ils se concentrent sur une évaluation en un seul tour et ne peuvent pas capturer la nature interactive multi-tours, les schémas d'utilisation des outils et le raisonnement adaptatif requis par les agents de codage en situation réelle. Nous présentons LoCoBench-Agent, un cadre d'évaluation complet spécialement conçu pour évaluer les agents LLM dans des workflows réalistes de génie logiciel à long contexte. Notre cadre étend les 8 000 scénarios de LoCoBench en environnements interactifs pour agents, permettant une évaluation systématique des conversations multi-tours, de l'efficacité d'utilisation des outils, de la récupération d'erreurs et de la cohérence architecturale lors de sessions de développement prolongées. Nous introduisons également une méthodologie d'évaluation avec 9 métriques couvrant les dimensions de compréhension et d'efficacité. Notre cadre fournit aux agents 8 outils spécialisés (opérations sur fichiers, recherche, analyse de code) et les évalue sur des longueurs de contexte allant de 10K à 1M de tokens, permettant une évaluation précise des performances en long contexte. Grâce à l'évaluation systématique des modèles de pointe, nous révélons plusieurs résultats clés : (1) les agents présentent une robustesse remarquable au long contexte ; (2) un compromis compréhension-efficacité existe avec une corrélation négative, où une exploration approfondie améliore la compréhension mais réduit l'efficacité ; et (3) l'efficacité conversationnelle varie considérablement selon les modèles, les schémas d'utilisation stratégique des outils différenciant les agents les plus performants. Premier benchmark pour agents LLM en long contexte dédié au génie logiciel, LoCoBench-Agent établit une base rigoureuse pour mesurer les capacités des agents, identifier les lacunes de performance et faire progresser le développement logiciel autonome à grande échelle.
Le dialogue persuasif orienté objectif, illustré par des applications comme le télémarketing, nécessite une planification sophistiquée sur plusieurs tours et une fidélité factuelle stricte, ce qui reste un défi majeur même pour les plus récents grands modèles de langage (LLM). Le manque de données spécifiques à la tâche a souvent limité les travaux antérieurs, et l'application directe des LLM souffre de fragilité stratégique et d'hallucinations factuelles. Dans cet article, nous construisons et publions d'abord TeleSalesCorpus, le premier jeu de données de dialogue ancré dans le monde réel pour ce domaine. Nous proposons ensuite AI-Salesman, un cadre novateur doté d'une architecture à double étage. Pour la phase d'entraînement, nous concevons un algorithme d'apprentissage par renforcement supervisé bayésien qui apprend des stratégies de vente robustes à partir de dialogues bruités. Pour la phase d'inférence, nous introduisons l'agent dynamique guidé par plan (DOGA), qui exploite une bibliothèque de scripts pré-construite pour fournir un guidage stratégique dynamique tour par tour. De plus, nous concevons un cadre d'évaluation complet qui combine des métriques granulaires pour les compétences clés en vente avec le paradigme LLM-comme-juge. Les résultats expérimentaux démontrent que notre AI-Salesman proposé surpasse significativement les modèles de référence dans les métriques automatiques et les évaluations humaines complètes, attestant de son efficacité dans des scénarios persuasifs complexes.
Les systèmes existants de génération augmentée par récupération (RAG) utilisent généralement une architecture centralisée, entraînant un coût élevé de collecte, d'intégration et de gestion des données, ainsi que des préoccupations en matière de vie privée. Il existe un besoin crucial pour un système RAG décentralisé permettant aux modèles de fondation d'utiliser directement les informations des propriétaires de données qui conservent un contrôle total sur leurs sources. Cependant, la décentralisation pose un défi : les nombreuses sources de données indépendantes présentent une fiabilité très variable, ce qui peut réduire la précision de la récupération et la qualité des réponses. Pour y remédier, notre système RAG décentralisé intègre un mécanisme novateur d'évaluation de la fiabilité qui évalue dynamiquement chaque source en fonction de la qualité des réponses qu'elle contribue à générer, et priorise les sources de haute qualité lors de la récupération. Pour garantir la transparence et la confiance, le processus d'évaluation est géré de manière sécurisée via des contrats intelligents basés sur la blockchain, créant des enregistrements de fiabilité vérifiables et inviolables sans dépendre d'une autorité centrale. Nous évaluons notre système décentralisé avec deux modèles Llama (3B et 8B) dans deux environnements simulés où six sources de données présentent différents niveaux de fiabilité. Notre système obtient une amélioration de performance de +10,7 % par rapport à son équivalent centralisé dans des environnements de données peu fiables similaires au monde réel. Fait notable, il approche la performance limite des systèmes centralisés dans des environnements de données idéalement fiables. L'infrastructure décentralisée permet une gestion sécurisée et fiable des scores, réalisant environ 56 % d'économies de coûts marginaux grâce à des opérations de mise à jour groupées. Notre code et notre système sont open-source sur github.com/yining610/Reliable-dRAG.
L'échographie (US) est l'une des modalités d'imagerie médicale les plus utilisées, grâce à son faible coût, sa portabilité, ses retours en temps réel et l'absence de rayonnements ionisants. Cependant, l'interprétation des images échographiques reste très dépendante de l'opérateur et varie considérablement selon les régions anatomiques, les protocoles d'acquisition et les types d'appareils. Ces variations, ainsi que des défis spécifiques tels que le speckle, le faible contraste et le nombre limité d'annotations standardisées, entravent le développement de modèles d'IA échographique généralisables et efficaces en termes d'annotations. Dans cet article, nous proposons OpenUS, le premier modèle de fond (foundation model) échographique reproductible et open-source construit à partir d'une vaste collection de données publiques. OpenUS utilise une architecture de type Mamba visuelle, capturant à la fois les dépendances locales et les dépendances globales à longue portée dans l'image. Pour extraire des caractéristiques riches lors du pré-entraînement, nous introduisons un nouveau cadre de masquage auto-adaptatif qui combine l'apprentissage par contraste et la modélisation d'images masquées. Cette stratégie intègre la carte d'attention de l'enseignant (teacher) avec la perte de reconstruction de l'élève (student), affinant de manière adaptative le masquage des régions cliniquement pertinentes pour améliorer l'efficacité du pré-entraînement. OpenUS applique également un calendrier d'apprentissage dynamique pour ajuster progressivement la difficulté du processus de pré-entraînement. Pour développer le modèle de fond, nous avons compilé le plus grand jeu de données échographiques publiques à ce jour, comprenant plus de 308 000 images provenant de 42 ensembles de données publics, couvrant diverses régions anatomiques, institutions, dispositifs d'imagerie et types de pathologies. Notre modèle OpenUS pré-entraîné peut être facilement adapté à des tâches en aval spécifiques en servant de squelette pour un réglage fin efficace en annotations. Le code est disponible à l'adresse https://github.com/XZheng0427/OpenUS.