papers.description
La science des données autonome, des sources de données brutes aux rapports de recherche approfondis de niveau analyste, constitue un défi de longue date, qui devient désormais réalisable avec l'émergence de modèles de langage de grande envergure (LLMs). Les agents de données basés sur des workflows récents ont montré des résultats prometteurs pour des tâches spécifiques, mais restent fondamentalement limités dans la réalisation d'une science des données entièrement autonome en raison de leur dépendance à des workflows prédéfinis. Dans cet article, nous présentons DeepAnalyze-8B, le premier LLM agentique conçu pour la science des données autonome, capable de compléter automatiquement le pipeline de bout en bout, des sources de données aux rapports de recherche approfondis de niveau analyste. Pour relever les défis de tâches de science des données de haute complexité, nous proposons un paradigme de formation agentique basé sur un curriculum qui imite la trajectoire d'apprentissage des scientifiques de données humains, permettant aux LLMs d'acquérir et d'intégrer progressivement plusieurs capacités dans des environnements réels. Nous introduisons également un cadre de synthèse de trajectoire ancré dans les données qui construit des données de formation de haute qualité. Grâce à la formation agentique, DeepAnalyze apprend à exécuter un large éventail de tâches de données, allant de la réponse aux questions sur les données et des tâches analytiques spécialisées à la recherche de données ouverte. Les expériences démontrent qu'avec seulement 8 milliards de paramètres, DeepAnalyze surpasse les agents basés sur des workflows précédents construits sur les LLMs propriétaires les plus avancés. Le modèle, le code et les données de formation de DeepAnalyze sont open-source, ouvrant la voie vers une science des données autonome.
L'édition d'images a réalisé des progrès remarquables récemment. Les modèles modernes d'édition sont déjà capables de suivre des instructions complexes pour manipuler le contenu original. Cependant, au-delà de l'exécution des instructions d'édition, les effets physiques associés sont essentiels pour garantir le réalisme de la génération. Par exemple, supprimer un objet devrait également éliminer son ombre, ses réflexions et ses interactions avec les objets environnants. Malheureusement, les modèles et benchmarks existants se concentrent principalement sur l'exécution des instructions mais négligent ces effets physiques. Alors, à ce stade, à quel point sommes-nous éloignés d'une édition d'images physiquement réaliste ? Pour répondre à cette question, nous introduisons PICABench, qui évalue systématiquement le réalisme physique à travers huit sous-dimensions (couvrant l'optique, la mécanique et les transitions d'état) pour la plupart des opérations d'édition courantes (ajout, suppression, changement d'attribut, etc.). Nous proposons également PICAEval, un protocole d'évaluation fiable qui utilise un modèle de langage visuel (VLM) comme juge, accompagné d'annotations humaines et de questions au niveau régional pour chaque cas. Au-delà du benchmarking, nous explorons des solutions efficaces en apprenant la physique à partir de vidéos et construisons un ensemble de données d'entraînement PICA-100K. Après avoir évalué la plupart des modèles dominants, nous observons que le réalisme physique reste un problème complexe avec de vastes perspectives à explorer. Nous espérons que notre benchmark et les solutions proposées serviront de base pour les travaux futurs visant à passer d'une édition de contenu naïve à un réalisme physiquement cohérent.
Les grands modèles de langage (LLMs) reposent de plus en plus sur la modélisation de contextes longs pour des tâches telles que la compréhension de documents, l'analyse de code et le raisonnement en plusieurs étapes. Cependant, l'extension des fenêtres contextuelles au niveau du million de tokens entraîne des coûts de calcul et de mémoire prohibitifs, limitant ainsi la praticabilité des LLMs à contexte long. Dans ce travail, nous adoptons une perspective différente — la mise à l'échelle contextuelle visuelle — pour relever ce défi. Au lieu d'étendre les séquences basées sur des tokens, nous proposons Glyph, un cadre qui convertit les textes longs en images et les traite à l'aide de modèles vision-langage (VLMs). Cette approche compresse considérablement l'entrée textuelle tout en préservant les informations sémantiques, et nous concevons en outre une recherche génétique pilotée par un LLM pour identifier les configurations optimales de rendu visuel afin d'équilibrer précision et compression. À travers des expériences approfondies, nous démontrons que notre méthode permet une compression de 3 à 4 fois le nombre de tokens tout en maintenant une précision comparable à celle des LLMs leaders tels que Qwen3-8B sur divers benchmarks de contexte long. Cette compression entraîne également un préremplissage et un décodage environ 4 fois plus rapides, ainsi qu'une formation SFT environ 2 fois plus rapide. De plus, sous une compression extrême, un VLM à contexte de 128K pourrait être mis à l'échelle pour gérer des tâches textuelles de niveau 1M-token. Par ailleurs, les données textuelles rendues profitent aux tâches multimodales du monde réel, telles que la compréhension de documents. Notre code et modèle sont disponibles à l'adresse https://github.com/thu-coai/Glyph.
Le progrès des modèles vision-langage (VLMs) est entravé par un paysage fragmenté de jeux de données publics incohérents et contaminés. Nous présentons FineVision, un corpus méticuleusement collecté, organisé et unifié de 24 millions d'échantillons - la plus grande ressource ouverte de ce type. Nous unifions plus de 200 sources en 185 sous-ensembles via un pipeline semi-automatisé avec intervention humaine : l'automatisation effectue l'ingestion en masse et le mappage des schémas, tandis que les réviseurs audite les mappages et vérifient un échantillon des sorties pour s'assurer de la fidélité de la consommation des annotations, du formatage approprié, de la diversité et de la sécurité ; les problèmes déclenchent des corrections ciblées et des réexécutions. Le flux de travail applique également une déduplication rigoureuse au sein et entre les sources, ainsi qu'une décontamination par rapport à 66 benchmarks publics. FineVision inclut également des tâches agentielles/GUI avec un espace d'action unifié ; les réviseurs valident les schémas et inspectent un échantillon de trajectoires pour confirmer la fidélité exécutable. Les modèles entraînés sur FineVision surpassent systématiquement ceux entraînés sur les mélanges ouverts existants à travers une large suite d'évaluation, mettant en évidence les avantages de l'échelle, de l'hygiène des données et de l'automatisation équilibrée avec supervision humaine. Nous publions le corpus et les outils de curation pour accélérer la recherche centrée sur les données dans le domaine des VLMs.
Une hypothèse dominante dans la recherche sur les modèles de langage multimodaux (MLLM) est que leurs performances sont largement héritées de l'architecture de base du modèle de langage (LLM), étant donné son échelle de paramètres immense et ses capacités remarquables. Cela a créé un vide dans la compréhension de l'encodeur visuel, qui détermine la manière dont les MLLM perçoivent les images. Le récent changement de paradigme dans l'entraînement des MLLM, passant du Fine-Tuning Supervisé (SFT) à l'Apprentissage par Renforcement (RL), amplifie cette lacune, à savoir le manque significatif d'analyse sur la manière dont un tel entraînement redéfinit l'encodeur visuel ainsi que le MLLM. Pour y remédier, nous étudions d'abord l'impact des stratégies d'entraînement sur les MLLM, où l'RL montre un avantage clair par rapport au SFT dans des benchmarks de Question-Réponse Visuelle (VQA) fortement liés à la vision. Motivés par cela, nous menons une analyse critique et encore peu explorée de l'encodeur visuel des MLLM à travers des expériences variées et approfondies, allant de la classification et segmentation sur ImageNet à la visualisation des gradients. Nos résultats démontrent que la stratégie post-entraînement des MLLM (c'est-à-dire SFT ou RL) non seulement conduit à des résultats distincts sur les tâches en aval des MLLM, mais redéfinit également fondamentalement les représentations visuelles sous-jacentes des MLLM. Plus précisément, la découverte clé de notre étude est que l'RL produit des représentations visuelles plus fortes et précisément localisées par rapport au SFT, renforçant ainsi les capacités de l'encodeur visuel pour les MLLM. Nous reformulons ensuite nos conclusions en une recette simple pour construire des encodeurs visuels performants pour les MLLM, appelée Optimisation Visuelle Guidée par les Préférences (PIVOT). Lorsqu'il est intégré dans les MLLM, un encodeur visuel entraîné avec PIVOT surpasse même des modèles plus grands et plus intensément entraînés, malgré un coût de calcul inférieur à 1 % de celui du pré-entraînement visuel standard. Ce résultat ouvre une voie efficace et efficiente pour faire progresser les architectures visuelles des MLLM. Page du projet disponible à l'adresse suivante : https://june-page.github.io/pivot/
Les grands modèles de langage (LLM) ont montré des progrès remarquables dans les tâches de raisonnement complexe, largement facilités par les paradigmes de mise à l'échelle au moment du test (TTS) qui allouent des ressources de calcul supplémentaires lors de l'inférence. Parmi ceux-ci, le TTS externe (en particulier le paradigme de sélection Best-of-N) permet des améliorations de performance évolutives en sélectionnant parmi plusieurs trajectoires de raisonnement générées indépendamment. Cependant, cette approche présente des limites clés : (i) la surcharge computationnelle élevée liée au déploiement de modèles de récompense de processus, (ii) la sous-utilisation des représentations latentes intrinsèques du LLM. Nous présentons TrajSelector, un cadre Best-of-N efficace et efficient qui exploite les états cachés du LLM échantillonneur pour un scoring au niveau du processus. Un vérificateur léger (avec seulement 0,6 milliard de paramètres) évalue la qualité des trajectoires étape par étape, puis agrège ces scores pour identifier la trajectoire de raisonnement optimale. Notre cadre utilise une méthode d'entraînement entièrement pilotée par les données et de bout en bout, éliminant la dépendance aux annotations massives au niveau des étapes. Les résultats expérimentaux sur cinq benchmarks démontrent que TrajSelector offre des gains de performance constants. Dans des configurations Best-of-32, il surpasse le vote majoritaire de 4,61 % en précision et dépasse les modèles de récompense de processus existants de 4,31 % à 12,21 %, tout en maintenant des coûts d'inférence plus faibles.
La Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG) s’est imposée comme un paradigme puissant pour améliorer les grands modèles de langage (LLMs) en récupérant des documents pertinents à partir d’un corpus externe. Cependant, les systèmes RAG existants se concentrent principalement sur des documents textuels unimodaux et peinent souvent à répondre aux scénarios réels où les requêtes et les documents peuvent contenir des modalités mixtes (telles que du texte et des images). Dans cet article, nous abordons le défi de la Génération Augmentée par Récupération Universelle (Universal Retrieval-Augmented Generation, URAG), qui implique la récupération et le raisonnement sur des informations multimodales pour améliorer la génération visio-linguistique. À cette fin, nous proposons Nyx, un récupérateur unifié multimodal à multimodal spécialement conçu pour les scénarios URAG. Pour pallier la rareté des données multimodales réalistes, nous introduisons un pipeline automatisé en quatre étapes pour la génération et le filtrage, exploitant des documents web pour construire NyxQA, un ensemble de données comprenant des paires question-réponse multimodales diversifiées qui reflètent mieux les besoins d’information du monde réel. En nous appuyant sur cet ensemble de données de haute qualité, nous adoptons un cadre d’entraînement en deux étapes pour Nyx : nous effectuons d’abord un pré-entraînement sur NyxQA ainsi que sur divers ensembles de données de récupération open-source, suivi d’un réglage fin supervisé utilisant les retours des modèles visio-linguistiques (VLMs) en aval pour aligner les résultats de récupération avec les préférences génératives. Les résultats expérimentaux démontrent que Nyx non seulement performe de manière compétitive sur les benchmarks RAG standards en texte seul, mais excelle également dans le cadre plus général et réaliste de l’URAG, améliorant significativement la qualité de la génération dans les tâches visio-linguistiques.
Les modèles de langage de grande envergure ont obtenu des performances solides dans les tâches de raisonnement, résolvant des problèmes de codage et de mathématiques de niveau compétitif. Cependant, leur évolutivité est limitée par les ensembles de données annotés manuellement et le manque de données d'entraînement à grande échelle pour des problèmes de codage complexes. Les ensembles de données existants pour le codage compétitif ne contiennent que des milliers à des dizaines de milliers de problèmes. Les méthodes précédentes de génération de données synthétiques reposent soit sur l'augmentation des ensembles d'instructions existants, soit sur la sélection de problèmes complexes à partir de données annotées manuellement. Dans cet article, nous proposons QueST, un cadre novateur qui combine un échantillonnage de graphes sensible à la difficulté et un réglage fin par rejet sensible à la difficulté, optimisant directement des générateurs spécialisés pour créer des problèmes de codage complexes. Nos générateurs entraînés démontrent une capacité supérieure, même par rapport à GPT-4, pour créer des problèmes complexes qui améliorent les performances en aval. Nous exploitons QueST pour générer des problèmes de codage synthétiques à grande échelle, que nous utilisons ensuite pour distiller des modèles enseignants puissants avec des chaînes de raisonnement longues ou pour réaliser un apprentissage par renforcement pour des modèles plus petits, prouvant leur efficacité dans les deux scénarios. Nos expériences de distillation montrent des gains de performance significatifs. Plus précisément, après avoir affiné Qwen3-8B-base sur 100 000 problèmes difficiles générés par QueST, nous surpassons les performances du Qwen3-8B original sur LiveCodeBench. Avec 112 000 exemples supplémentaires (c'est-à-dire 28 000 problèmes rédigés par des humains associés à plusieurs solutions synthétiques), notre modèle de 8 milliards de paramètres atteint les performances du modèle beaucoup plus grand DeepSeek-R1-671B. Ces résultats indiquent que la génération de problèmes complexes via QueST offre une approche efficace et évolutive pour repousser les frontières du codage compétitif et du raisonnement pour les modèles de langage de grande envergure.
L'assemblage de grands modèles de langage (LLM) a suscité un intérêt croissant en tant qu'approche prometteuse pour dépasser les performances des modèles individuels en exploitant leurs forces complémentaires. En particulier, l'agrégation des distributions de probabilité des tokens suivants des modèles pour sélectionner le prochain token s'est avérée efficace dans diverses tâches. Cependant, bien que cette méthode soit couronnée de succès pour les réponses courtes, son application à la génération de textes longs reste peu explorée. Dans cet article, nous montrons que l'utilisation des méthodes d'assemblage existantes pour la génération de textes longs nécessite un choix minutieux des positions d'assemblage, car la pratique standard consistant à assembler à chaque token dégrade souvent les performances. Nous identifions deux facteurs clés pour déterminer ces positions : les incompatibilités de tokenisation entre les modèles et le consensus dans leurs distributions de probabilité des tokens suivants. Sur cette base, nous proposons SAFE (Stable And Fast LLM Ensembling), un cadre qui assemble de manière sélective en prenant en compte conjointement ces facteurs. Pour améliorer davantage la stabilité, nous introduisons une stratégie d'accentuation des probabilités qui regroupe les probabilités réparties sur plusieurs sous-tokens représentant le même mot en un seul token représentatif. Nos expériences sur divers benchmarks, dont MATH500 et BBH, démontrent que SAFE surpasse les méthodes existantes à la fois en précision et en efficacité, avec des gains obtenus même en assemblant moins de 1 % des tokens.
Bien que les modèles de fondation aient montré des résultats prometteurs dans divers domaines, l'astronomie manque encore d'un cadre unifié pour la modélisation conjointe de ses modalités de données hautement diversifiées. Dans cet article, nous présentons AION-1, une famille de modèles de fondation multimodaux à grande échelle pour l'astronomie. AION-1 intègre des données hétérogènes d'imagerie, spectroscopiques et scalaires en utilisant une architecture en deux étapes : une tokenisation spécifique à chaque modalité suivie d'une modélisation masquée basée sur des transformateurs de séquences de tokens intermodales. Le modèle est pré-entraîné sur cinq grands relevés : Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI) et Gaia. Ces relevés couvrent plus de 200 millions d'observations d'étoiles, de galaxies et de quasars. Avec un seul encodeur figé, AION-1 obtient des résultats solides sur un large éventail de tâches en aval, notamment l'estimation des propriétés des galaxies et des étoiles, la classification de la morphologie des galaxies, la recherche basée sur la similarité, la segmentation d'images de galaxies et la super-résolution spectrale. Nous publions des variantes du modèle AION-1 allant de 300 millions à 3,1 milliards de paramètres. Au-delà de l'astronomie, AION-1 fournit un modèle évolutif pour les modèles de fondation scientifiques multimodaux capables d'intégrer de manière transparente des observations bruyantes et spécifiques à l'instrument. Tous les codes, tokenizers, poids pré-entraînés et une suite d'évaluation légère sont publiés sous une licence open-source.
Bien que la mise à l'échelle au moment de l'inférence grâce à la recherche ait révolutionné les modèles de langage de grande taille, la transposition de ces avancées à la génération d'images s'est avérée difficile. Les tentatives récentes d'appliquer des stratégies de recherche aux modèles de diffusion continus montrent des bénéfices limités, avec un échantillonnage aléatoire simple souvent performant. Nous démontrons que la nature discrète et séquentielle des modèles autoregressifs visuels permet une recherche efficace pour la génération d'images. Nous montrons que la recherche par faisceau améliore considérablement la génération de texte à image, permettant à un modèle autoregressif de 2 milliards de paramètres de surpasser un modèle de diffusion de 12 milliards de paramètres sur plusieurs benchmarks. Des ablations systématiques montrent que cet avantage provient de l'espace de jetons discret, qui permet un élagage précoce et une réutilisation des calculs, et notre analyse de vérificateur met en lumière les compromis entre vitesse et capacité de raisonnement. Ces résultats suggèrent que l'architecture du modèle, et pas seulement l'échelle, est cruciale pour l'optimisation au moment de l'inférence dans la génération visuelle.
L'alignement de l'honnêteté — la capacité des grands modèles de langage (LLMs) à reconnaître leurs limites de connaissances et à exprimer une confiance calibrée — est essentiel pour un déploiement fiable. Les méthodes existantes reposent soit sur l'estimation de confiance sans entraînement (par exemple, les probabilités de tokens, l'auto-cohérence), soit sur la calibration basée sur l'entraînement avec des annotations de correction. Bien qu'elles soient efficaces, atteindre un alignement universel de l'honnêteté avec la calibration basée sur l'entraînement nécessite un étiquetage coûteux et à grande échelle. Pour soutenir un entraînement efficace en termes d'annotations, nous introduisons Elicitation-Then-Calibration (EliCal), un cadre en deux étapes qui suscite d'abord la confiance interne en utilisant une supervision peu coûteuse basée sur l'auto-cohérence, puis calibre cette confiance avec un petit ensemble d'annotations de correction. Pour soutenir une étude à grande échelle, nous publions HonestyBench, un benchmark couvrant dix ensembles de données de questions-réponses libres avec 560 000 instances d'entraînement et 70 000 instances d'évaluation annotées avec des signaux de correction et d'auto-cohérence. Les expériences montrent qu'EliCal atteint un alignement quasi optimal avec seulement 1 000 annotations de correction (0,18 % de la supervision complète) et une meilleure performance d'alignement sur les tâches MMLU non vues que la base de référence de calibration seule, offrant ainsi une solution évolutive vers un alignement universel de l'honnêteté dans les LLMs.
L'édition d'images basée sur des instructions a réalisé des progrès remarquables ; cependant, les modèles uniquement entraînés par ajustement fin supervisé sur-ajustent souvent aux motifs annotés, limitant leur capacité à explorer et à généraliser au-delà des distributions d'entraînement. À cette fin, nous introduisons Edit-R1, un nouveau cadre post-entraînement pour l'édition d'images basée sur des instructions, fondé sur l'optimisation de politiques. Plus précisément, nous utilisons le Diffusion Negative-aware Finetuning (DiffusionNFT), une méthode d'optimisation de politique sans vraisemblance, cohérente avec le processus direct de correspondance de flux, permettant ainsi l'utilisation d'échantillonneurs d'ordre supérieur et un entraînement plus efficace. Un autre défi majeur ici est l'absence d'un modèle de récompense universel, résultant de la nature diverse des instructions et des tâches d'édition. Pour combler cette lacune, nous employons un Modèle de Langage Multimodal à Grande Échelle (MLLM) comme modèle de récompense unifié et sans entraînement, exploitant ses logits de sortie pour fournir un retour d'information granulaire. De plus, nous concevons soigneusement un mécanisme de filtrage de groupe à faible variance pour réduire le bruit de notation du MLLM et stabiliser l'optimisation. UniWorld-V2, entraîné avec ce cadre, obtient des résultats de pointe sur les benchmarks ImgEdit et GEdit-Bench, avec des scores de 4,49 et 7,83, respectivement. De manière cruciale, notre cadre est agnostique au modèle, offrant des gains de performance substantiels lorsqu'il est appliqué à divers modèles de base comme Qwen-Image-Edit et FLUX-Kontext, démontrant ainsi sa large applicabilité. Le code et les modèles sont disponibles publiquement à l'adresse https://github.com/PKU-YuanGroup/UniWorld-V2.
Les récentes avancées dans les méthodes de contrôle d'attention sans apprentissage ont permis d'offrir des capacités de modification guidée par texte flexibles et efficaces pour les modèles de génération existants. Cependant, les approches actuelles peinent à concilier une forte puissance d'édition avec la préservation de la cohérence par rapport à la source. Cette limitation devient particulièrement critique dans les modifications multi-étapes et vidéo, où les erreurs visuelles peuvent s'accumuler au fil du temps. De plus, la plupart des méthodes existantes imposent une cohérence globale, ce qui limite leur capacité à modifier des attributs individuels, tels que la texture, tout en préservant d'autres, entravant ainsi l'édition fine. Récemment, le passage architectural de l'U-Net au MM-DiT a apporté des améliorations significatives dans les performances génératives et introduit un nouveau mécanisme d'intégration des modalités texte et vision. Ces avancées ouvrent la voie à la résolution de défis que les méthodes précédentes n'ont pas su surmonter. À travers une analyse approfondie du MM-DiT, nous identifions trois insights clés concernant ses mécanismes d'attention. Sur cette base, nous proposons ConsistEdit, une nouvelle méthode de contrôle d'attention spécifiquement conçue pour le MM-DiT. ConsistEdit intègre un contrôle d'attention purement visuel, une fusion pré-attention guidée par masque, et une manipulation différenciée des tokens de requête, clé et valeur pour produire des modifications cohérentes et alignées avec l'invite. Des expériences approfondies démontrent que ConsistEdit atteint des performances de pointe dans une large gamme de tâches d'édition d'images et de vidéos, incluant à la fois des scénarios cohérents et incohérents en termes de structure. Contrairement aux méthodes précédentes, il s'agit de la première approche à réaliser des modifications à travers toutes les étapes d'inférence et les couches d'attention sans intervention manuelle, améliorant ainsi significativement la fiabilité et la cohérence, ce qui permet une édition robuste multi-étapes et multi-régions. En outre, il permet un ajustement progressif de la cohérence structurelle, offrant un contrôle plus fin.
La réplication des recherches en IA constitue une tâche cruciale mais complexe pour les agents de modèles de langage de grande taille (LLM). Les approches existantes peinent souvent à générer du code exécutable, principalement en raison d’un manque de connaissances de fond et des limites des méthodes de génération augmentée par récupération (RAG), qui ne parviennent pas à capturer les détails techniques latents cachés dans les articles référencés. De plus, les approches précédentes ont tendance à négliger les signaux de code précieux au niveau de l’implémentation et manquent de représentations structurées des connaissances permettant une récupération et une réutilisation multi-granulaires. Pour surmonter ces défis, nous proposons les Graphes de Connaissances Exécutables (xKG), une base de connaissances modulaire et plug-and-play qui intègre automatiquement des insights techniques, des extraits de code et des connaissances spécifiques au domaine extraites de la littérature scientifique. Lorsqu’ils sont intégrés dans trois frameworks d’agents avec deux LLM différents, les xKG montrent des gains de performance substantiels (10,9 % avec o3-mini) sur PaperBench, démontrant leur efficacité en tant que solution générale et extensible pour la réplication automatisée des recherches en IA. Le code sera publié sur https://github.com/zjunlp/xKG.
Le raisonnement en chaîne de pensée de longue durée est devenu un pilier fondamental du raisonnement avancé dans les grands modèles de langage. Bien que les récents cadres de vérification et de raffinement aient permis aux modèles propriétaires de résoudre des problèmes de niveau olympique, leur efficacité repose sur des capacités de vérification et de correction solides et fiables, qui restent fragiles dans les modèles à poids ouverts et de plus petite échelle. Ce travail démontre que même avec des capacités de vérification et de raffinement faibles sur des tâches difficiles, les limites de raisonnement de tels modèles peuvent être considérablement étendues grâce à un paradigme probabiliste que nous appelons le Raisonnement Auto-Évolutif Profond (DSER). Nous conceptualisons le raisonnement itératif comme une chaîne de Markov, où chaque étape représente une transition stochastique dans l'espace des solutions. L'idée clé est que la convergence vers une solution correcte est garantie tant que la probabilité d'amélioration dépasse légèrement celle de dégradation. En exécutant plusieurs processus auto-évolutifs à long horizon en parallèle, DSER amplifie ces petites tendances positives, permettant au modèle d'approcher asymptotiquement les bonnes réponses. Empiriquement, nous appliquons DSER au modèle DeepSeek-R1-0528-Qwen3-8B. Sur le benchmark exigeant AIME 2024-2025, DSER résout 5 des 9 problèmes précédemment insolubles et améliore les performances globales, permettant à ce modèle compact de surpasser la précision en un seul tour de son enseignant à 600 milliards de paramètres grâce au vote majoritaire. Au-delà de son utilité immédiate pour la mise à l'échelle lors des tests, le cadre DSER sert à diagnostiquer les limitations fondamentales des raisonneurs à poids ouverts actuels. En délimitant clairement leurs lacunes en matière d'auto-vérification, de raffinement et de stabilité, nos résultats établissent un agenda de recherche clair pour développer des modèles de nouvelle génération dotés de puissantes capacités intrinsèques d'auto-évolution.
Les modèles de séries temporelles pré-entraînés ont permis le développement de systèmes de prévision en inférence seule, produisant des prédictions précises sans entraînement spécifique à une tâche. Cependant, les approches existantes se concentrent largement sur la prévision univariée, limitant ainsi leur applicabilité dans des scénarios réels où les données multivariées et les covariables jouent un rôle crucial. Nous présentons Chronos-2, un modèle pré-entraîné capable de gérer des tâches de prévision univariées, multivariées et informées par des covariables de manière zero-shot. Chronos-2 utilise un mécanisme d'attention de groupe qui facilite l'apprentissage en contexte (ICL) grâce au partage efficace d'informations entre plusieurs séries temporelles au sein d'un groupe, qui peut représenter des ensembles de séries connexes, des variantes d'une série multivariée, ou des cibles et des covariables dans une tâche de prévision. Ces capacités générales sont obtenues grâce à un entraînement sur des ensembles de données synthétiques qui imposent des structures multivariées variées à des séries univariées. Chronos-2 offre des performances de pointe sur trois benchmarks complets : fev-bench, GIFT-Eval et Chronos Benchmark II. Sur fev-bench, qui met l'accent sur la prévision multivariée et informée par des covariables, les capacités universelles d'ICL de Chronos-2 conduisent à des améliorations substantielles par rapport aux modèles existants. Sur les tâches impliquant des covariables, il surpasse systématiquement les modèles de référence avec une large marge. Des études de cas dans les domaines de l'énergie et de la vente au détail mettent en avant ses avantages pratiques. Les capacités d'apprentissage en contexte de Chronos-2 en font un modèle de prévision à usage général qui peut être utilisé "tel quel" dans les pipelines de prévision en contexte réel.
L'évolution rapide de l'IA agentielle marque une nouvelle phase dans l'intelligence artificielle, où les modèles de langage de grande taille (LLMs) ne se contentent plus de répondre, mais agissent, raisonnent et s'adaptent. Cette étude retrace le changement de paradigme dans la construction de l'IA agentielle : des systèmes basés sur des pipelines, où la planification, l'utilisation d'outils et la mémoire sont orchestrées par une logique externe, au paradigme émergent Model-native, où ces capacités sont internalisées dans les paramètres du modèle. Nous positionnons d'abord l'apprentissage par renforcement (RL) comme le moteur algorithmique permettant ce changement de paradigme. En reformulant l'apprentissage de l'imitation de données statiques à l'exploration axée sur les résultats, le RL soutient une solution unifiée de LLM + RL + Tâche à travers les domaines du langage, de la vision et de l'interaction incarnée. Sur cette base, l'étude passe en revue systématiquement comment chaque capacité — Planification, Utilisation d'outils et Mémoire — a évolué de modules scriptés de manière externe à des comportements appris de bout en bout. De plus, elle examine comment ce changement de paradigme a remodelé les principales applications d'agents, en particulier l'agent de recherche approfondie mettant l'accent sur le raisonnement à long terme et l'agent d'interface graphique (GUI) mettant l'accent sur l'interaction incarnée. Nous concluons en discutant de l'internalisation continue des capacités agentielles comme la collaboration multi-agents et la réflexion, ainsi que des rôles évolutifs des couches système et modèle dans l'IA agentielle future. Ensemble, ces développements tracent une trajectoire cohérente vers une IA agentielle Model-native comme cadre intégré d'apprentissage et d'interaction, marquant la transition de la construction de systèmes qui appliquent l'intelligence au développement de modèles qui cultivent l'intelligence par l'expérience.
Le laboratoire Codec Avatars de Meta présente Embody 3D, un ensemble de données multimodales comprenant 500 heures individuelles de données de mouvement 3D provenant de 439 participants, collectées dans un espace équipé de multiples caméras, totalisant plus de 54 millions d'images de mouvement 3D suivies. Ce jeu de données couvre une large gamme de mouvements individuels, incluant des mouvements dirigés, des gestes des mains et des déplacements ; ainsi que des données comportementales et conversationnelles impliquant plusieurs personnes, telles que des discussions, des conversations dans différents états émotionnels, des activités collaboratives et des scénarios de cohabitation dans un espace similaire à un appartement. Nous fournissons le suivi du mouvement humain, y compris le suivi des mains et la morphologie corporelle, des annotations textuelles et une piste audio séparée pour chaque participant.
Les récents progrès en génération d'images, souvent portés par des systèmes propriétaires comme GPT-4o Image Gen, introduisent régulièrement de nouvelles capacités qui redéfinissent la manière dont les utilisateurs interagissent avec ces modèles. Les benchmarks existants accusent souvent un retard et ne parviennent pas à capturer ces nouveaux cas d'utilisation, créant un écart entre la perception communautaire des avancées et l'évaluation formelle. Pour remédier à cela, nous présentons ECHO, un cadre permettant de construire des benchmarks directement à partir de preuves réelles d'utilisation des modèles : des publications sur les réseaux sociaux qui mettent en avant des prompts novateurs et des jugements qualitatifs des utilisateurs. En appliquant ce cadre à GPT-4o Image Gen, nous avons constitué un ensemble de données de plus de 31 000 prompts sélectionnés à partir de ces publications. Notre analyse montre qu'ECHO (1) découvre des tâches créatives et complexes absentes des benchmarks existants, comme la re-création d'étiquettes de produits dans différentes langues ou la génération de reçus avec des totaux spécifiés, (2) distingue plus clairement les modèles de pointe des alternatives, et (3) met en lumière les retours de la communauté que nous utilisons pour concevoir des métriques de qualité des modèles (par exemple, mesurer les variations observées dans la couleur, l'identité et la structure). Notre site web est accessible à l'adresse https://echo-bench.github.io.
L'apprentissage par renforcement agentique (RL) entraîne les grands modèles de langage à appeler de manière autonome des outils lors du raisonnement, avec la recherche comme application la plus courante. Ces modèles excellent dans les tâches de raisonnement en plusieurs étapes, mais leurs propriétés de sécurité ne sont pas bien comprises. Dans cette étude, nous montrons que les modèles de recherche entraînés par RL héritent du refus issu du réglage par instruction et détournent souvent les requêtes nuisibles en les transformant en requêtes sûres. Cependant, cette sécurité est fragile. Deux attaques simples, l'une qui force le modèle à commencer sa réponse par une recherche (attaque de recherche), l'autre qui encourage les modèles à effectuer des recherches répétées (attaque de multi-recherche), déclenchent des cascades de recherches et de réponses nuisibles. Sur deux familles de modèles (Qwen, Llama) avec des recherches locales et sur le web, ces attaques réduisent les taux de refus jusqu'à 60,0 %, la sécurité des réponses de 82,5 % et la sécurité des requêtes de recherche de 82,4 %. Les attaques réussissent en incitant les modèles à générer des requêtes de recherche nuisibles et reflétant la demande avant qu'ils ne puissent générer les jetons de refus hérités. Cela expose une faiblesse fondamentale de l'entraînement RL actuel : il récompense la génération continue de requêtes efficaces sans tenir compte de leur nocivité. En conséquence, les modèles de recherche RL présentent des vulnérabilités que les utilisateurs peuvent facilement exploiter, rendant urgent le développement de pipelines RL agentiques conscients de la sécurité, optimisés pour une recherche sûre.
Les agents multimodaux pour l'utilisation informatique reposent exclusivement sur des actions primitives (cliquer, taper, faire défiler) qui nécessitent un ancrage visuel précis et des chaînes d'exécution longues, entraînant des échecs en cascade et des goulots d'étranglement de performance. Alors que d'autres agents exploitent des interfaces programmatiques riches (API, serveurs MCP, outils), les agents d'utilisation informatique (CUA) restent isolés de ces capacités. Nous présentons UltraCUA, un modèle de base qui comble cet écart grâce à une action hybride — intégrant de manière transparente les primitives d'interface graphique avec des appels d'outils programmatiques de haut niveau. Pour y parvenir, notre approche comprend quatre composants clés : (1) un pipeline automatisé qui met à l'échelle des outils programmatiques à partir de la documentation logicielle, de dépôts open-source et de la génération de code ; (2) un moteur de données synthétiques produisant plus de 17 000 tâches vérifiables couvrant des scénarios réels d'utilisation informatique ; (3) une collection à grande échelle de trajectoires d'actions hybrides de haute qualité, incluant à la fois des actions d'interface graphique de bas niveau et des appels d'outils programmatiques de haut niveau ; et (4) un pipeline d'entraînement en deux étapes combinant un ajustement fin supervisé avec un apprentissage par renforcement en ligne, permettant une alternance stratégique entre actions de bas niveau et de haut niveau. Les expériences avec nos modèles de 7B et 32B démontrent des améliorations substantielles par rapport aux agents de pointe. Sur OSWorld, les modèles UltraCUA atteignent une amélioration relative moyenne de 22 % par rapport aux modèles de base, tout en étant 11 % plus rapides en termes d'étapes. Une évaluation hors domaine sur WindowsAgentArena montre que notre modèle atteint un taux de réussite de 21,7 %, surpassant les modèles de référence entraînés sur des données Windows. Le mécanisme d'action hybride s'avère crucial, réduisant la propagation des erreurs tout en maintenant l'efficacité d'exécution.
Alors que l'information croît de manière exponentielle, les entreprises sont confrontées à une pression croissante pour transformer les données non structurées en informations cohérentes et exploitables. Bien que les agents autonomes montrent des promesses, ils peinent souvent avec les nuances spécifiques au domaine, l'alignement des intentions et l'intégration dans l'entreprise. Nous présentons Enterprise Deep Research (EDR), un système multi-agents qui intègre (1) un Agent de Planification Maître pour la décomposition adaptative des requêtes, (2) quatre agents de recherche spécialisés (Général, Académique, GitHub, LinkedIn), (3) un écosystème d'outils extensible basé sur MCP prenant en charge NL2SQL, l'analyse de fichiers et les workflows d'entreprise, (4) un Agent de Visualisation pour des insights basés sur les données, et (5) un mécanisme de réflexion qui détecte les lacunes de connaissances et met à jour la direction de la recherche avec un guidage humain optionnel en boucle. Ces composants permettent la génération automatisée de rapports, le streaming en temps réel et le déploiement transparent dans l'entreprise, comme validé sur des jeux de données internes. Sur des benchmarks ouverts incluant DeepResearch Bench et DeepConsult, EDR surpasse les systèmes agentiques de pointe sans aucun guidage humain. Nous publions le framework EDR et les trajectoires de benchmark pour faire avancer la recherche sur les applications de raisonnement multi-agents. Code disponible à https://github.com/SalesforceAIResearch/enterprise-deep-research et Dataset à https://huggingface.co/datasets/Salesforce/EDR-200.
La réponse visuelle à des questions basée sur la connaissance (KB-VQA) nécessite que les modèles de langage visuel (VLMs) intègrent la compréhension visuelle avec la récupération de connaissances externes. Bien que la génération augmentée par récupération (RAG) réalise des avancées significatives dans cette tâche en combinant l'interrogation de bases de connaissances, elle rencontre encore des difficultés concernant la qualité des requêtes multimodales et la pertinence des résultats récupérés. Pour surmonter ces défis, nous proposons une nouvelle méthode en trois étapes, appelée Wiki-PRF, comprenant les étapes de Traitement, Récupération et Filtrage. L'étape de traitement invoque dynamiquement des outils visuels pour extraire des informations multimodales précises en vue de la récupération. L'étape de récupération intègre les caractéristiques visuelles et textuelles pour réaliser une récupération de connaissances multimodales. L'étape de filtrage effectue un filtrage de pertinence et une concentration sur les résultats de récupération. À cette fin, nous introduisons un modèle de langage visuel entraîné avec la précision des réponses et la cohérence du format comme signaux de récompense via une approche d'apprentissage par renforcement. Cela améliore le raisonnement du modèle, l'invocation d'outils pour des requêtes précises et le filtrage de contenu non pertinent. Les expériences sur des ensembles de données de référence (E-VQA et InfoSeek) montrent des améliorations significatives (36,0 et 42,8) dans la qualité des réponses, atteignant des performances de pointe. Le code est disponible à l'adresse https://github.com/cqu-student/Wiki-PRF.
Les modèles de langage de grande envergure (LLMs), tels qu’OpenAI-o1 et DeepSeek-R1, ont démontré de solides capacités de raisonnement. Pour améliorer davantage les capacités des LLMs, des systèmes agentiques récents, comme Deep Research, intègrent des interactions web dans le processus de raisonnement des LLMs afin de réduire les incertitudes et les erreurs potentielles. Cependant, les recherches existantes se concentrent principalement sur la performance en matière de raisonnement, négligeant souvent l’efficacité des systèmes agentiques. Dans ce travail, nous présentons une étude empirique approfondie qui identifie les goulots d’étranglement en matière d’efficacité dans les systèmes agentiques interactifs avec le web. Nous décomposons la latence de bout en bout en deux composantes principales : la latence des API des LLMs et la latence de l’environnement web. Nous menons une étude empirique exhaustive sur 15 modèles et 5 fournisseurs pour démontrer une variabilité élevée dans les systèmes agentiques basés sur des API. Nous observons que la latence de l’environnement web peut contribuer jusqu’à 53,7 % à la latence globale d’un système agentique basé sur le web. Pour améliorer la latence, nous proposons SpecCache, un cadre de mise en cache augmenté par une exécution spéculative, capable de réduire la surcharge de l’environnement web. Des évaluations approfondies sur deux benchmarks standards montrent que notre approche améliore le taux de succès du cache jusqu’à 58 fois par rapport à une stratégie de mise en cache aléatoire, tout en réduisant la surcharge de l’environnement web jusqu’à 3,2 fois, sans dégrader la performance du système agentique.
Les modèles vision-langage (VLMs) ont démontré des capacités impressionnantes sur des benchmarks à tour unique, mais les applications réelles exigent souvent des dialogues multi-tours plus complexes. Les jeux de données multi-tours existants (par exemple, MMDU, ConvBench) ne capturent que partiellement l'étendue et la profondeur des scénarios conversationnels rencontrés par les utilisateurs. Dans ce travail, nous présentons MultiVerse, un nouveau benchmark de conversations multi-tours comprenant 647 dialogues - chacun comptant en moyenne quatre tours - dérivés d'un ensemble diversifié de 12 benchmarks populaires d'évaluation de VLMs. Avec 484 tâches et 484 objectifs d'interaction, MultiVerse couvre un large éventail de sujets, allant des connaissances factuelles et de la perception à des tâches de raisonnement avancé telles que les mathématiques et la programmation. Pour faciliter une évaluation robuste, nous proposons une méthode d'évaluation basée sur une liste de vérification qui utilise GPT-4o comme évaluateur automatisé, mesurant les performances sur 37 aspects clés, notamment la précision perceptuelle, la clarté linguistique et l'exactitude factuelle. Nous évaluons 18 VLMs sur MultiVerse, révélant que même les modèles les plus performants (par exemple, GPT-4o) n'atteignent qu'un taux de réussite de 50 % dans les conversations multi-tours complexes, soulignant la nature exigeante du jeu de données. Notamment, nous constatons que la fourniture du contexte complet du dialogue améliore significativement les performances des modèles plus petits ou plus faibles, mettant en évidence l'importance de l'apprentissage en contexte. Nous pensons que MultiVerse représente un paysage essentiel pour évaluer les capacités d'interaction multi-tours des VLMs.
Les récents progrès des grands modèles de raisonnement (LRMs) ont permis des performances remarquables sur des tâches complexes telles que les mathématiques et la programmation, grâce à la génération de longues traces de Chaîne de Pensée (CoT). Dans cet article, nous identifions et analysons systématiquement une vulnérabilité critique que nous nommons distraction du raisonnement, où les LRMs sont détournés de leur objectif principal par des tâches complexes mais non pertinentes, insérées de manière malveillante dans l'invite. À travers une étude approfondie sur divers modèles et benchmarks, nous montrons que même les LRMs les plus avancés y sont fortement sensibles, les distracteurs injectés réduisant la précision des tâches jusqu'à 60 %. Nous révélons en outre que certaines techniques d'alignement peuvent amplifier cette faiblesse et que les modèles peuvent manifester une conformité secrète, suivant des instructions adverses cachées dans leur raisonnement tout en les masquant dans la sortie finale. Pour atténuer ces risques, nous proposons une défense basée sur l'entraînement qui combine un Fine-Tuning Supervisé (SFT) et un Apprentissage par Renforcement (RL) sur des données adverses synthétiques, améliorant la robustesse de plus de 50 points face à des attaques de distracteurs complexes. Nos résultats établissent la distraction du raisonnement comme une menace distincte et urgente pour la fiabilité des LRMs et offrent une étape pratique vers des systèmes de raisonnement plus sûrs et plus dignes de confiance.
L'affinage d'évaluateurs génératifs spécialisés est devenu un paradigme populaire pour répondre à la demande croissante d'évaluation scalable pendant l'entraînement et au moment des tests. Cependant, les travaux récents se sont principalement concentrés sur l'application de nouvelles méthodologies, telles que l'apprentissage par renforcement (RL), à l'entraînement des évaluateurs, évitant le développement à grande échelle basé sur les données. Dans ce travail, nous nous concentrons sur la mise à l'échelle des données, en constituant un ensemble de 2,5 millions d'échantillons couvrant cinq tâches d'évaluation uniques (comparaison par paires, évaluation au niveau des étapes, vérification sans référence et basée sur des références, et notation unique) et plusieurs domaines axés sur l'évaluation du raisonnement. Avec nos données, nous entraînons les Foundational Automatic Reasoning Evaluators (FARE), une famille d'évaluateurs de 8 milliards et 20 milliards de paramètres (dont 3,6 milliards actifs), en utilisant une approche simple d'affinage supervisé par échantillonnage de rejet itératif (SFT). FARE-8B rivalise avec des évaluateurs spécialisés plus grands entraînés par RL, et FARE-20B établit une nouvelle norme pour les évaluateurs open-source, surpassant les évaluateurs spécialisés de plus de 70 milliards de paramètres. Au-delà des benchmarks statiques, nous évaluons FARE dans des tâches réelles : en tant que réorganisateurs au moment de l'inférence, FARE-20B atteint des performances quasi-oraculaires sur MATH. En tant que vérificateurs dans l'entraînement par RL, FARE améliore les performances du modèle entraîné par RL en aval jusqu'à 14,1 % par rapport aux vérificateurs basés sur la correspondance de chaînes. Lorsqu'il est initialisé à partir de FARE, un FARE-Code continuellement affiné surpasse gpt-oss-20B de 65 % dans l'évaluation de la qualité des cas de test.
Si vous disposiez d’un traducteur IA baleine-anglais, comment pourriez-vous valider son fonctionnement ? Est-il nécessaire d’interagir avec les animaux ou de s’appuyer sur des observations concrètes, telles que la température ? Nous fournissons des preuves théoriques et expérimentales de principe suggérant que l’interaction, voire les observations, pourraient ne pas être nécessaires pour des langages suffisamment complexes. Il serait possible d’évaluer les traducteurs uniquement sur la base de leurs sorties en anglais, offrant ainsi des avantages potentiels en termes de sécurité, d’éthique et de coût. Ceci constitue un exemple d’évaluation de la qualité de la traduction automatique (MTQE) sans aucune traduction de référence disponible. Un défi majeur consiste à identifier les « hallucinations », des traductions fausses qui peuvent paraître fluides et plausibles. Nous proposons d’utiliser la traduction segment par segment, associée au test de permutation classique en traitement automatique du langage (NLP), pour évaluer les traducteurs. L’idée est de traduire la communication animale, tour à tour, et d’évaluer à quelle fréquence les traductions résultantes ont plus de sens dans l’ordre original que dans un ordre permuté. Des expériences de principe sur des langues humaines peu documentées et des langues construites démontrent l’utilité potentielle de cette méthodologie d’évaluation. Ces expériences sur des langues humaines servent uniquement à valider notre métrique sans référence dans un contexte de rareté des données. Il est constaté qu’elle présente une forte corrélation avec une évaluation standard basée sur des traductions de référence, disponibles dans nos expériences. Nous effectuons également une analyse théorique suggérant que l’interaction pourrait ne pas être nécessaire ni efficace dans les premières étapes de l’apprentissage de la traduction.
Ce travail présente une investigation systématique d'architectures personnalisées de réseaux de neurones convolutifs pour la classification de l'utilisation des terres à partir d'images satellitaires, atteignant une précision de test de 97,23 % sur le jeu de données EuroSAT sans recourir à des modèles pré-entraînés. À travers trois itérations architecturales progressives (baseline : 94,30 %, améliorée par CBAM : 95,98 %, et attention multi-tâches équilibrée : 97,23 %), nous identifions et corrigeons des modes de défaillance spécifiques dans la classification d'images satellitaires. Notre contribution principale est un nouveau mécanisme d'attention multi-tâches équilibré qui combine l'attention coordonnée pour l'extraction de caractéristiques spatiales avec des blocs Squeeze-Excitation pour l'extraction de caractéristiques spectrales, unifiés par un paramètre de fusion apprenable. Les résultats expérimentaux montrent que ce paramètre apprenable converge de manière autonome vers alpha ≈ 0,57, indiquant une importance quasi-égale des modalités spatiales et spectrales pour les images satellitaires. Nous utilisons une régularisation progressive par DropBlock (5-20 % selon la profondeur du réseau) et une pondération des pertes équilibrée par classe pour traiter le surapprentissage et le déséquilibre des motifs de confusion. L'architecture finale à 12 couches atteint un Kappa de Cohen de 0,9692 avec toutes les classes dépassant 94,46 % de précision, démontrant une calibration de confiance avec un écart de 24,25 % entre les prédictions correctes et incorrectes. Notre approche atteint une performance à 1,34 % près du ResNet-50 affiné (98,57 %) sans nécessiter de données externes, validant l'efficacité de la conception architecturale systématique pour des applications spécifiques à un domaine. Le code complet, les modèles entraînés et les scripts d'évaluation sont disponibles publiquement.
La conception de systèmes agentifs efficaces nécessite la composition et l'intégration fluides d'agents, d'outils et de modèles dans des environnements dynamiques et incertains. La plupart des méthodes existantes reposent sur des approches de récupération sémantique statique pour la découverte d'outils ou d'agents. Cependant, la réutilisation et la composition efficaces des composants existants restent difficiles en raison de descriptions incomplètes des capacités et des limites des méthodes de récupération. La sélection des composants est entravée car les décisions ne sont pas basées sur les capacités, les coûts et l'utilité en temps réel. Pour relever ces défis, nous introduisons un cadre structuré et automatisé pour la composition de systèmes agentifs, inspiré du problème du sac à dos. Notre cadre permet à un agent compositeur d'identifier, de sélectionner et d'assembler systématiquement un ensemble optimal de composants agentifs en prenant en compte conjointement les performances, les contraintes budgétaires et la compatibilité. En testant dynamiquement les composants candidats et en modélisant leur utilité en temps réel, notre approche rationalise l'assemblage des systèmes agentifs et facilite la réutilisation évolutive des ressources. L'évaluation empirique avec Claude 3.5 Sonnet sur cinq ensembles de données de référence montre que notre compositeur basé sur le sac à dos en ligne se situe systématiquement sur la frontière de Pareto, atteignant des taux de réussite plus élevés à des coûts de composants significativement inférieurs par rapport à nos références. Dans le cadre mono-agent, le compositeur basé sur le sac à dos en ligne montre une amélioration du taux de réussite allant jusqu'à 31,6 % par rapport aux références de récupération. Dans les systèmes multi-agents, le compositeur basé sur le sac à dos en ligne augmente le taux de réussite de 37 % à 87 % lorsque les agents sont sélectionnés parmi un inventaire de plus de 100 agents. L'écart de performance substantiel confirme la robuste adaptabilité de notre méthode à travers divers domaines et contraintes budgétaires.
Le transfert d'apparence vers des actifs 3D en utilisant différentes représentations de l'objet d'apparence - telles que des images ou du texte - a suscité un intérêt croissant en raison de son large éventail d'applications dans des industries comme le jeu vidéo, la réalité augmentée et la création de contenu numérique. Cependant, les méthodes de pointe échouent encore lorsque la géométrie entre l'entrée et les objets d'apparence est significativement différente. Une approche directe consiste à appliquer directement un modèle génératif 3D, mais nous montrons que cela échoue finalement à produire des résultats convaincants. À la place, nous proposons une approche structurée inspirée par le guidage universel. Étant donné un modèle de flux rectifié pré-entraîné conditionné sur une image ou un texte, notre méthode sans entraînement interagit avec le processus d'échantillonnage en ajoutant périodiquement un guidage. Ce guidage peut être modélisé comme une fonction de perte différentiable, et nous expérimentons avec deux types de guidage, incluant des pertes sensibles aux parties pour l'apparence et la similarité intrinsèque. Nos expériences montrent que notre approche transfère avec succès la texture et les détails géométriques à l'actif 3D d'entrée, surpassant les méthodes de référence à la fois qualitativement et quantitativement. Nous montrons également que les métriques traditionnelles ne sont pas adaptées pour évaluer cette tâche en raison de leur incapacité à se concentrer sur les détails locaux et à comparer des entrées dissemblables, en l'absence de données de référence. Nous évaluons donc la qualité du transfert d'apparence avec un système basé sur GPT classant objectivement les résultats, assurant une évaluation robuste et proche de celle d'un humain, comme le confirme notre étude utilisateur. Au-delà des scénarios présentés, notre méthode est générale et pourrait être étendue à différents types de modèles de diffusion et fonctions de guidage.
Une collaboration efficace entre humains et IA sur des tâches de raisonnement complexe nécessite que les utilisateurs comprennent et interagissent avec le processus du modèle, et non pas qu'ils reçoivent simplement un résultat. Cependant, le texte monolithique produit par des méthodes comme la Chaîne de Pensée (Chain-of-Thought, CoT) empêche cela, car les interfaces actuelles manquent de verbalisation en temps réel et d'une capacité robuste d'interruption par l'utilisateur. Nous présentons AsyncVoice Agent, un système dont l'architecture asynchrone découple un backend de modèle de langage en streaming d'une interface vocale conversationnelle. Cette conception permet à la narration et à l'inférence de s'exécuter en parallèle, donnant aux utilisateurs la possibilité d'interrompre, d'interroger et de guider le processus de raisonnement du modèle à tout moment. Des benchmarks objectifs montrent que cette approche réduit la latence d'interaction de plus de 600 fois par rapport aux bases de référence monolithiques, tout en garantissant une haute fidélité et une précision compétitive des tâches. En permettant un dialogue bidirectionnel avec le processus de pensée d'un modèle, AsyncVoice Agent propose un nouveau paradigme pour construire des systèmes humains-IA plus efficaces, pilotables et dignes de confiance pour des tâches à enjeux élevés.
Les grands modèles de langage internalisent un compromis structurel entre la véracité et la flatterie obséquieuse, résultant d'une optimisation des récompenses qui confond l'utilité avec la soumission polie. Ce biais latent, connu sous le nom de sycophance, se manifeste par une préférence pour l'accord avec l'utilisateur plutôt que pour un raisonnement fondé sur des principes. Nous introduisons Beacon, un benchmark de choix forcé en un seul tour qui isole ce biais indépendamment du contexte conversationnel, permettant une mesure précise de la tension entre l'exactitude factuelle et le biais de soumission. Les évaluations sur douze modèles de pointe révèlent que la sycophance se décompose en sous-biais linguistiques et affectifs stables, chacun évoluant avec la capacité du modèle. Nous proposons en outre des interventions au niveau des invites et des activations qui modulent ces biais dans des directions opposées, exposant la géométrie interne de l'alignement comme une variété dynamique entre la véracité et le jugement socialement conforme. Beacon redéfinit la sycophance comme une forme mesurable de mésogénéralisation normative, offrant une base reproductible pour étudier et atténuer la dérive de l'alignement dans les systèmes génératifs à grande échelle.
La mise à l'échelle au moment du test (Test-time scaling, TTS) a amélioré les performances des modèles de raisonnement (Reasoning Models, RMs) sur diverses tâches telles que les mathématiques et la programmation, mais son efficacité dans le domaine de la traduction automatique (Machine Translation, MT) reste peu explorée. Cet article examine si l'augmentation du calcul au moment de l'inférence améliore la qualité de la traduction. Nous évaluons 12 RMs sur un ensemble diversifié de benchmarks de traduction automatique couvrant plusieurs domaines, en examinant trois scénarios : la traduction directe, l'extrapolation par raisonnement forcé et la post-édition. Nos résultats montrent que pour les RMs généralistes, le TTS offre des avantages limités et incohérents pour la traduction directe, avec une performance qui atteint rapidement un plateau. Cependant, l'efficacité du TTS est débloquée par un ajustement spécifique au domaine, qui aligne le processus de raisonnement du modèle avec les exigences de la tâche, conduisant à des améliorations constantes jusqu'à une profondeur de raisonnement optimale et auto-déterminée. Nous constatons également que forcer un modèle à raisonner au-delà de son point d'arrêt naturel dégrade systématiquement la qualité de la traduction. En revanche, le TTS s'avère très efficace dans un contexte de post-édition, transformant de manière fiable l'auto-correction en un processus bénéfique. Ces résultats indiquent que la valeur du calcul au moment de l'inférence en traduction automatique ne réside pas dans l'amélioration de la traduction en une seule passe avec des modèles généraux, mais dans des applications ciblées comme les workflows multi-étapes d'auto-correction et en conjonction avec des modèles spécialisés pour la tâche.
À mesure que les systèmes d'IA progressent, nous nous appuyons davantage sur eux pour prendre des décisions avec nous et pour nous. Pour garantir que ces décisions soient alignées avec les valeurs humaines, il est essentiel de comprendre non seulement quelles décisions ils prennent, mais aussi comment ils parviennent à ces décisions. Les modèles de langage à raisonnement, qui fournissent à la fois des réponses finales et des traces de pensée intermédiaires (partiellement transparentes), offrent une opportunité opportune pour étudier le raisonnement procédural de l'IA. Contrairement aux problèmes de mathématiques et de code qui ont souvent des réponses objectivement correctes, les dilemmes moraux constituent un excellent terrain d'essai pour une évaluation axée sur le processus, car ils permettent plusieurs conclusions défendables. Pour ce faire, nous présentons MoReBench : 1 000 scénarios moraux, chacun associé à un ensemble de critères de grille d'évaluation que les experts considèrent essentiels à inclure (ou à éviter) lors du raisonnement sur ces scénarios. MoReBench contient plus de 23 000 critères, notamment l'identification des considérations morales, la pondération des compromis et la formulation de recommandations actionnables pour couvrir les cas où l'IA conseille les humains dans leurs décisions morales ainsi que ceux où elle prend des décisions morales de manière autonome. Par ailleurs, nous avons constitué MoReBench-Theory : 150 exemples pour tester si l'IA peut raisonner selon cinq grands cadres de l'éthique normative. Nos résultats montrent que les lois d'échelle et les benchmarks existants sur les tâches de raisonnement mathématique, de code et scientifique ne permettent pas de prédire les capacités des modèles à effectuer un raisonnement moral. Les modèles montrent également une partialité envers des cadres moraux spécifiques (par exemple, l'utilitarisme d'acte de Bentham et la déontologie kantienne), ce qui pourrait être un effet secondaire des paradigmes d'entraînement populaires. Ensemble, ces benchmarks font progresser l'évaluation du raisonnement axée sur le processus vers une IA plus sûre et plus transparente.