Articles de recherche IA sélectionnés quotidiennement avec traductions
Les récentes avancées en génération et édition d'images ont ouvert de nouvelles opportunités pour l'essayage virtuel. Cependant, les méthodes existantes peinent encore à répondre aux demandes complexes du monde réel. Nous présentons Tstars-Tryon 1.0, un système d'essayage virtuel à l'échelle commerciale qui est robuste, réaliste, polyvalent et hautement efficace. Premièrement, notre système maintient un taux de réussite élevé dans des cas difficiles comme les poses extrêmes, les variations d'éclairage sévères, le flou de mouvement et autres conditions en environnement réel. Deuxièmement, il produit des résultats hautement photoréalistes avec des détails fins, préservant fidèlement la texture des vêtements, les propriétés des matériaux et les caractéristiques structurelles, tout en évitant largement les artefacts courants générés par l'IA. Troisièmement, au-delà de l'essayage de vêtements, notre modèle prend en charge une composition flexible multi-images (jusqu'à 6 images de référence) couvrant 8 catégories de mode, avec un contrôle coordonné de l'identité de la personne et de l'arrière-plan. Quatrièmement, pour surmonter les goulots d'étranglement de latence du déploiement commercial, notre système est fortement optimisé pour la vitesse d'inférence, offrant une génération quasi en temps réel pour une expérience utilisateur fluide. Ces capacités sont rendues possibles par une conception système intégrée couvrant l'architecture de modèle end-to-end, un moteur de données évolutif, une infrastructure robuste et un paradigme d'entraînement multi-étapes. Une évaluation approfondie et un déploiement produit à grande échelle démontrent que Tstars-Tryon1.0 atteint des performances globales leaders. Pour soutenir la recherche future, nous publions également un benchmark complet. Le modèle a été déployé à l'échelle industrielle sur l'application Taobao, servant des millions d'utilisateurs avec des dizaines de millions de requêtes.
La synthèse de vidéos d'interaction humain-objet (IHO) présente une valeur pratique étendue dans le commerce électronique, la publicité numérique et le marketing virtuel. Cependant, les modèles de diffusion actuels, malgré leur capacité de rendu photoréaliste, échouent encore fréquemment sur (i) la stabilité structurelle des régions sensibles comme les mains et les visages, et (ii) le contact physiquement plausible (par exemple, éviter l'interpénétration main-objet). Nous présentons CoInteract, un framework de bout en bout pour la synthèse vidéo IHO conditionnée par une image de référence d'une personne, une image de référence d'un produit, des invites textuelles et un audio vocal. CoInteract introduit deux conceptions complémentaires intégrées dans un backbone de type Transformer à Diffusion (DiT). Premièrement, nous proposons un Mixture-of-Experts (MoE) conscient de l'humain qui achemine les tokens vers des experts légers spécialisés par région via un routage supervisé spatialement, améliorant la fidélité structurelle fine avec une surcharge paramétrique minimale. Deuxièmement, nous proposons une Co-Génération Spatialement Structurée, un paradigme d'entraînement à double flux qui modélise conjointement un flux d'apparence RVB et un flux auxiliaire de structure IHO pour injecter des préconnaissances géométriques d'interaction. Pendant l'entraînement, le flux IHO prête attention aux tokens RVB et sa supervision régularise les poids partagés du backbone ; lors de l'inférence, la branche IHO est supprimée pour une génération RVB sans surcharge. Les résultats expérimentaux démontrent que CoInteract surpasse significativement les méthodes existantes en termes de stabilité structurelle, de cohérence logique et de réalisme de l'interaction.
Les systèmes d'agents basés sur modèles de langage reposent couramment sur l'invitation réactive, où une instruction unique guide le modèle à travers une séquence ouverte d'étapes de raisonnement et d'utilisation d'outils, laissant le flux de contrôle et l'état intermédiaire implicites et rendant le comportement de l'agent potentiellement difficile à contrôler. Les cadres d'orchestration tels que LangGraph, DSPy et CrewAI imposent une structure plus rigoureuse via des définitions explicites de flux de travail, mais couplent étroitement la logique du workflow avec Python, rendant les agents difficiles à maintenir et à modifier. Dans cet article, nous présentons AgentSPEX, un langage de SPécification et d'EXécution d'Agents pour spécifier des workflows d'agents LLM avec un flux de contrôle explicite et une structure modulaire, ainsi qu'un environnement d'exécution personnalisable. AgentSPEX prend en charge des étapes typées, des branchements et des boucles, une exécution parallèle, des sous-modules réutilisables et une gestion explicite de l'état. Ces workflows s'exécutent au sein d'un environnement qui fournit l'accès aux outils, un environnement virtuel sandboxé, ainsi que la prise en charge de points de contrôle, de la vérification et de la journalisation. De plus, nous fournissons un éditeur visuel avec des vues synchronisées de graphe et de workflow pour la création et l'inspection. Nous incluons des agents prêts à l'emploi pour la recherche approfondie et la recherche scientifique, et nous évaluons AgentSPEX sur 7 benchmarks. Enfin, nous montrons grâce à une étude utilisateur qu'AgentSPEX offre un paradigme de création de workflows plus interprétable et accessible qu'un cadre d'agent populaire existant.
La reconstruction 3D à partir de vues éparses est essentielle pour modéliser des scènes à partir de captures occasionnelles, mais reste difficile pour les approches non génératives. Les méthodes existantes basées sur la diffusion atténuent ce problème en synthétisant de nouvelles vues, mais elles se conditionnent souvent sur une ou deux images seulement, ce qui limite la cohérence géométrique et l'adaptabilité aux scènes étendues ou variées. Nous proposons AnyRecon, un cadre évolutif pour la reconstruction à partir d'entrées éparses, arbitraires et non ordonnées, qui préserve un contrôle géométrique explicite tout en supportant une cardinalité de conditionnement flexible. Pour permettre un conditionnement à longue portée, notre méthode construit une mémoire scénique globale persistante via un cache de vues capturées préchargé, et supprime la compression temporelle pour maintenir la correspondance au niveau des images sous de grands changements de viewpoint. Au-delà d'un meilleur modèle génératif, nous montrons que l'interaction entre génération et reconstruction est cruciale pour les scènes 3D à grande échelle. Ainsi, nous introduisons une stratégie de conditionnement géométriquement consciente qui couple génération et reconstruction via une mémoire géométrique 3D explicite et une récupération des vues capturées pilotée par la géométrie. Pour garantir l'efficacité, nous combinons la distillation de diffusion en 4 étapes avec une attention éparse à fenêtre contextuelle pour réduire la complexité quadratique. Des expériences approfondies démontrent une reconstruction robuste et évolutive avec des entrées irrégulières, de grands écarts de viewpoint et de longues trajectoires.
L’entraînement au moment du test (TTT) adapte les paramètres du modèle sur des instances de test non étiquetées pendant l’inférence, étendant continuellement les capacités au-delà de ce que permet l’entraînement hors ligne. Malgré des gains initiaux, les méthodes TTT existantes pour les modèles de raisonnement linguistique (LRM) plafonnent rapidement et ne bénéficient pas de calculs supplémentaires au moment du test. Sans calibration externe, le signal de récompense auto-généré dérive de plus en plus à mesure que le modèle de politique évolue, conduisant à la fois à des plateaux de performance et à un effondrement de la diversité. Nous proposons TEMPO, un framework TTT qui alterne le raffinement de la politique sur des questions non étiquetées avec une recalibration périodique du critique sur un jeu de données étiqueté. En formalisant cette procédure alternée via l’algorithme Expectation-Maximization (EM), nous montrons que les méthodes antérieures peuvent être interprétées comme des variantes incomplètes omettant l’étape cruciale de recalibration. Réintroduire cette étape resserre la borne inférieure de l’évidence (ELBO) et permet une amélioration soutenue. Sur diverses familles de modèles (Qwen3 et OLMO3) et tâches de raisonnement, TEMPO améliore OLMO3-7B sur AIME 2024 de 33,0 % à 51,1 % et Qwen3-14B de 42,3 % à 65,8 %, tout en maintenant une grande diversité.
Les grands modèles de langage (LLM) ont obtenu des résultats solides en génération de code, mais leur capacité à générer des applications d'interface graphique (GUI), en particulier des jeux, reste insuffisamment étudiée. Les benchmarks existants évaluent principalement la correction via des cas de test, ce qui est inadéquat pour les applications GUI car ces systèmes sont interactifs, pilotés par des événements et nécessitent des transitions d'état correctes sur des séquences d'actions utilisateur. Leur évaluation devrait donc considérer les flux d'interaction et la logique de l'interface utilisateur plutôt que de simples résultats de réussite/échec. Pour étudier ce problème, nous présentons PlayEval, un benchmark sensible au référentiel construit à partir de 43 applications GUI multilingues en Python, TypeScript et JavaScript. Contrairement aux benchmarks GUI antérieurs difficiles à adapter aux environnements de bureau, PlayEval couvre six catégories majeures d'applications GUI et prend directement en charge l'évaluation de la génération de code. Nous proposons en outre Play@k, une métrique qui mesure si au moins un des *k* candidats générés peut être exécuté de bout en bout sans erreurs logiques. Pour supporter une évaluation fiable, nous développons PlayTester, un agent basé sur un LLM qui effectue des parcours GUI orientés tâche et détecte automatiquement les violations de logique. Les expériences sur 10 LLM de code state-of-the-art montrent que, malgré des taux de compilation élevés, ils atteignent un Play@3 proche de zéro, révélant des faiblesses majeures dans la génération d'applications GUI logiquement correctes. Pour résoudre cette limitation, nous présentons PlayCoder, un framework multi-agent et sensible au référentiel qui génère, évalue et répare itérativement le code d'application GUI en boucle fermée. PlayCoder améliore substantiellement à la fois la correction fonctionnelle et l'alignement sémantique pour les modèles open-source et propriétaires, atteignant jusqu'à 38,1% Exec@3 et 20,3% Play@3. Des études de cas montrent en outre qu'il peut découvrir des boges logiques silencieux manqués par les métriques traditionnelles et les corriger via des modifications ciblées.
Le fine-tuning efficace en paramètres (PEFT) réduit le coût d'entraînement du fine-tuning complet des paramètres pour les grands modèles de langage (LLM) en n'entraînant qu'un petit ensemble de paramètres spécifiques à la tâche tout en gelant l'architecture pré-entraînée. Cependant, les approches existantes, telles que l'Adaptation Bas-Rang (LoRA), réalisent l'adaptation en insérant des perturbations bas-rang indépendantes directement aux poids individuels, résultant en une paramétrisation locale de l'adaptation. Nous proposons ShadowPEFT, un framework PEFT centralisé qui effectue plutôt un raffinement au niveau des couches via un module fantôme partagé en profondeur. À chaque couche de transformeur, ShadowPEFT maintient un état fantôme parallèle et le fait évoluer itérativement pour obtenir des états cachés progressivement plus riches. Cette conception déplace l'adaptation des perturbations distribuées dans l'espace des poids vers un processus de raffinement partagé dans l'espace des couches. Comme le module fantôme est découplé du modèle principal, il peut être réutilisé à travers les couches, pré-entraîné indépendamment, et déployé optionnellement en mode détaché, ce qui bénéficie aux scénarios de calcul en périphérie. Les expériences sur des benchmarks de génération et de compréhension montrent que ShadowPEFT égale ou surpasse LoRA et DoRA avec des budgets comparables de paramètres entraînables. Des analyses supplémentaires sur le pré-entraînement fantôme, le transfert inter-jeux de données, la mise à l'échelle des paramètres, la latence d'inférence et l'évaluation au niveau système suggèrent que l'adaptation centralisée dans l'espace des couches est une alternative compétitive et flexible aux méthodes PEFT bas-rang conventionnelles.
Actuellement, les workflows visuels exécutables sont devenus un paradigme dominant dans les déploiements industriels réels, offrant une fiabilité et une contrôlabilité élevées. Cependant, dans la pratique actuelle, ces workflows sont presque entièrement construits manuellement : les développeurs doivent concevoir méticuleusement les workflows, rédiger des prompts pour chaque étape, et réviser continuellement la logique lors de l'évolution des besoins, ce qui rend le développement coûteux, long et sujet aux erreurs. Pour étudier si les grands modèles de langage peuvent automatiser ce processus d'interaction multi-tours, nous présentons Chat2Workflow, un benchmark pour générer des workflows visuels exécutables directement à partir du langage naturel, et proposons un cadre agentiel robuste pour atténuer les erreurs d'exécution récurrentes. Chat2Workflow est construit à partir d'un large ensemble de workflows métier réels, chaque instance étant conçue pour que le workflow généré puisse être transformé et déployé directement sur des plateformes pratiques comme Dify et Coze. Les résultats expérimentaux montrent que si les modèles de langage les plus avancés capturent souvent l'intention de haut niveau, ils peinent à générer des workflows corrects, stables et exécutables, particulièrement face à des exigences complexes ou changeantes. Bien que notre cadre agentiel permette des gains allant jusqu'à 5,34% dans le taux de résolution, l'écart persistant avec les besoins réels positionne Chat2Workflow comme une base pour faire progresser l'automatisation industrielle. Le code est disponible à l'adresse https://github.com/zjunlp/Chat2Workflow.
Alors que l'apprentissage par renforcement continue d'intensifier l'entraînement des agents basés sur de grands modèles de langage, la vérification fiable des comportements des agents dans des environnements complexes est devenue de plus en plus difficile. Les approches existantes reposent sur des vérificateurs à base de règles ou des modèles de type LLM-comme-juge, qui peinent à généraliser au-delà de domaines restreints. L'approche Agent-comme-juge résout cette limitation en interagissant activement avec les environnements et les outils pour acquérir des preuves vérifiables, mais ses capacités restent sous-explorées. Nous présentons un benchmark AJ-Bench pour évaluer systématiquement l'approche Agent-comme-juge dans trois domaines - la recherche, les systèmes de données et les interfaces utilisateur graphiques - comprenant 155 tâches et 516 trajectoires annotées. Le benchmark évalue de manière exhaustive les capacités des agents juges en matière d'acquisition d'informations, de vérification d'état et de vérification de processus. Les expériences démontrent des gains de performance constants par rapport aux modèles de référence LLM-comme-juge, tout en révélant des défis ouverts substantiels dans la vérification par agents. Nos données et notre code sont disponibles à l'adresse https://aj-bench.github.io/.
La recherche d'information à suivi d'instructions (IF-IR) étudie les systèmes de recherche qui doivent non seulement trouver des documents pertinents pour une requête, mais aussi obéir à des contraintes utilisateur explicites telles que des attributs requis, des exclusions ou des préférences de sortie. Cependant, la plupart des systèmes de retrieval sont principalement entraînés pour la pertinence sémantique et échouent souvent à distinguer les documents correspondant au thème de ceux qui satisfont l'instruction. Nous proposons une stratégie de synthèse de données à double vue basée sur l'inversion de polarité : étant donné une requête, un document pertinent sous l'instruction et un exemple négatif difficile qui correspond à la requête mais viole l'instruction, nous incitons un LLM à générer une instruction complémentaire sous laquelle les deux documents échangent leurs étiquettes de pertinence. En présentant la même paire de documents sous des instructions complémentaires qui inversent leurs étiquettes de pertinence, le signal d'apprentissage force le système de retrieval à reconsidérer le même ensemble de candidats à travers l'instruction, plutôt que de s'appuyer sur des indices thématiques fixes. Sur un encodeur de 305 millions de paramètres, notre méthode améliore les performances sur le benchmark FollowIR de 45%, surpassant les modèles d'embedding généralistes d'échelle comparable ou supérieure. Par des comparaisons directes avec des budgets de données équivalents, nous montrons en outre que la diversité des données et la supervision par instructions jouent des rôles complémentaires : la première préserve la qualité générale du retrieval, tandis que la seconde améliore la sensibilité aux instructions. Ces résultats soulignent la valeur de la synthèse ciblée de données pour construire des systèmes de retrieval à la fois largement compétents et conscients des instructions.
L'alternance codique est un phénomène linguistique omniprésent dans la communication mondiale, pourtant les systèmes modernes de recherche d'information restent majoritairement conçus et évalués dans des contextes monolingues. Pour combler cette divergence critique, nous présentons une étude holistique dédiée à la RI en alternance codique. Nous introduisons CSR-L (Code-Switching Retrieval benchmark-Lite), en construisant un jeu de données via annotation humaine pour capturer l'authenticité naturelle des requêtes en langue mixte. Notre évaluation à travers les paradigmes statistiques, denses et à interaction tardive révèle que l'alternance codique agit comme un goulot d'étranglement fondamental pour la performance, dégradant l'efficacité même des modèles multilingues robustes. Nous démontrons que cet échec découle d'une divergence substantielle dans l'espace d'embedding entre le texte pur et le texte en alternance codique. Pour étendre cette investigation, nous proposons CS-MTEB, un benchmark complet couvrant 11 tâches diverses, où nous observons des baisses de performance allant jusqu'à 27 %. Enfin, nous montrons que les techniques multilingues standard comme l'expansion du vocabulaire sont insuffisantes pour résoudre complètement ces déficits. Ces résultats soulignent la fragilité des systèmes actuels et établissent l'alternance codique comme une frontière cruciale pour l'optimisation future de la RI.
L'arithmétique des tâches offre un moyen efficace et sans entraînement de modifier des modèles pré-entraînés, mais elle manque d'une explication théorique fondamentale justifiant son succès. Le concept existant de « désentrelacement des poids » décrit le résultat idéal d'une composition de tâches non interférente, mais n'en révèle pas la cause sous-jacente. De manière cruciale, les propriétés intrinsèques du modèle pré-entraîné (θ₀) ou des vecteurs de tâche (τₜ) qui permettent ce désentrelacement restent insuffisamment explorées. Dans cet article, nous introduisons la Spécialisation Tâche-Caractéristique (TFS), c'est-à-dire la capacité d'un modèle à allouer des caractéristiques internes distinctes à différentes tâches, comme principe fondamental. Nous prouvons d'abord que la TFS est une condition suffisante pour le désentrelacement des poids. Plus important encore, nous constatons que la TFS donne également lieu à une conséquence géométrique observable : l'orthogonalité des vecteurs de poids. Cela positionne la TFS comme la cause commune à la fois du résultat fonctionnel souhaité (le désentrelacement) et d'une propriété géométrique mesurable (l'orthogonalité). Cette relation fournit l'idée clé de notre méthode : puisque la propriété abstraite de TFS est intraitable à imposer directement, nous pouvons plutôt favoriser le désentrelacement des poids en façonnant sa conséquence géométrique concrète, l'orthogonalité. Par conséquent, nous proposons OrthoReg, une méthode de régularisation simple et efficace qui impose activement une structure orthogonale interne sur les mises à jour des poids (ΔW) qui constituent τₜ pendant le réglage fin. Et nous prouvons théoriquement qu'OrthoReg favorise le désentrelacement. Des expériences approfondies démontrent qu'OrthoReg améliore de manière constante et significative les performances de diverses méthodes d'arithmétique des tâches. Le code est disponible à l'adresse https://github.com/RL-MIND/OrthoReg{https://github.com/RL-MIND/OrthoReg}.
Nous abordons le problème de la génération d’un environnement navigable en 3D, spatialement ancré : une simulation d’un lieu réel. Les modèles génératifs vidéo existants peuvent produire une séquence plausible cohérente avec une consigne textuelle (T2V) ou une image (I2V). Cependant, la capacité à reconstruire le monde réel sous des conditions météorologiques arbitraires et des configurations dynamiques d’objets est essentielle pour les applications en aval, notamment la conduite autonome et la simulation robotique. Pour cela, nous présentons CityRAG, un modèle génératif vidéo qui exploite de grands corpus de données géolocalisées comme contexte pour ancrer la génération à la scène physique, tout en conservant des a priori appris pour les changements complexes de mouvement et d’apparence. CityRAG s’appuie sur des données d’entraînement non alignées temporellement, ce qui permet au modèle de dissocier sémantiquement la scène sous-jacente de ses attributs transitoires. Nos expériences démontrent que CityRAG peut générer des séquences vidéo cohérentes, physiquement ancrées et de plusieurs minutes, maintenir des conditions météorologiques et d’éclairage sur des milliers d’images, réaliser une fermeture de boucle et naviguer des trajectoires complexes pour reconstruire la géographie du monde réel.
La diffusion vidéo autorégressive émerge comme un paradigme prometteur pour la synthèse de vidéos en flux continu, la distillation d'étapes servant de principal moyen d'accélération de l'inférence. La question de savoir si le décodage spéculatif, la stratégie d'accélération dominante pour les grands modèles de langage, peut être efficacement adapté à la génération vidéo autorégressive reste ouverte, car les blocs vidéo sont des tenseurs spatio-temporels continus sans distribution au niveau des tokens permettant un échantillonnage de rejet exact. Nous présentons SDVG, qui introduit le décodage spéculatif dans la diffusion vidéo autorégressive basée sur des blocs en remplaçant la vérification de tokens par un routeur de qualité d'image. Un ébaucheur de 1,3 milliard de paramètres propose des blocs candidats via quatre étapes de débruitage ; chaque bloc est décodé par VAE et évalué par ImageReward en utilisant une agrégation par pire image – prenant la récompense minimale par image pour détecter les artefacts sur une seule image que la moyenne masquerait. Les blocs dont le score dépasse un seuil fixe tau sont acceptés dans le cache KV de la cible de 14B ; les autres sont régénérés par la cible. Deux choix de conception supplémentaires s'avèrent critiques : le premier bloc est toujours forcément rejeté pour ancrer la composition de la scène, et tau sert de paramètre unique qui trace une frontière de Pareto qualité-vitesse fluide. Sur 1003 prompts de MovieGenVideoBench (832x480), SDVG conserve 98,1 % de la qualité VisionReward en mode cible uniquement (0,0773 contre 0,0788) avec une accélération de 1,59x à tau=-0,7, et atteint 2,09x avec une rétention de qualité de 95,7 % – tout en surpassant constamment la génération par ébauche seule de plus de +17 %. Le framework ne nécessite aucun entraînement, aucune modification architecturale et peut être intégré de manière transparente dans les pipelines existants de génération vidéo autorégressive.
Les tâches quotidiennes s'accompagnent d'un objectif, et le pré-entraînement de modèles autour de cet objectif est ce qui les transforme en experts. Dans cet article, nous étudions le pré-entraînement de modèles de langage (LM) orienté objectif en introduisant le Classement par Graphe d'Activation Neuronale (NAG-based Ranking), un cadre d'interprétation et sans entraînement pour la sélection de données de pré-entraînement ciblées. Plutôt que d'utiliser des représentations en boîte noire, notre approche caractérise directement chaque entrée cible par un ensemble parcimonieux de neurones à fort impact dans n'importe quel grand modèle de langage (LLM) standard. Concrètement, nous quantifions l'impact des neurones et sélectionnons les neurones les plus influents à travers les couches dans un Graphe d'Activation Neuronale (NAG) compact, puis classons les données candidates par similarité NAG avec les exemples cibles. Nous menons des expériences sur six benchmarks, où notre classement basé sur NAG améliore le pré-entraînement orienté objectif de 4,9 % en moyenne par rapport à un échantillonnage aléatoire, et surpasse également l'état de l'art de 5,3 % en précision sur HellaSwag. Il reste également efficace dans un cadre multi-objectif plus applicable, où notre meilleure configuration dépasse deux méthodes de référence de 1,1 % et 4,1 % respectivement. De plus, nous fournissons une analyse complète du pourquoi et du comment notre NAG fonctionne, par exemple, la désactivation des neurones sélectionnés par NAG (seulement 0,12 % du total) provoque un effondrement des performances de 23,5 %, et la restriction du NAG à la couche finale entraîne une baisse moyenne de 4,1 %, indiquant que NAG capture une « épine dorsale fonctionnelle » parcimonieuse pour l'apprentissage des caractéristiques cibles. Nous publions le code à l'adresse https://github.com/asillycat/NAG.
L'édition traditionnelle d'images photographiques nécessite généralement que les utilisateurs possèdent une compréhension esthétique suffisante pour fournir des instructions appropriées afin d'ajuster la qualité d'image et les paramètres de l'appareil. Cependant, ce paradigme repose sur l'expression explicite de l'intention esthétique par l'humain, qui est souvent ambiguë, incomplète ou inaccessible aux utilisateurs non experts. Dans ce travail, nous proposons SmartPhotoCrafter, une méthode d'édition automatique d'images photographiques qui formule l'édition d'image comme un processus raisonnement-génération étroitement couplé. Le modèle proposé effectue d'abord une compréhension de la qualité de l'image et identifie les défauts grâce au module Image Critic, puis le module Photographic Artist réalise des modifications ciblées pour améliorer l'attrait de l'image, éliminant ainsi le besoin d'instructions humaines explicites. Une pipeline d'entraînement multi-étapes est adoptée : (i) Pré-entraînement de base pour établir une compréhension esthétique fondamentale et des capacités d'édition, (ii) Adaptation avec supervision multi-modifications guidée par le raisonnement pour incorporer un guidage sémantique riche, et (iii) Apprentissage par renforcement coordonné raisonnement-vers-génération pour optimiser conjointement le raisonnement et la génération. Pendant l'entraînement, SmartPhotoCrafter met l'accent sur la génération d'images photoréalistes, tout en prenant en charge les tâches de restauration et de retouche d'images avec une adhérence constante aux sémantiques liées à la couleur et aux tons. Nous construisons également un jeu de données spécifique par étape, qui développe progressivement le raisonnement et la génération contrôlable, une collaboration inter-modules efficace, et finalement une amélioration photographique de haute qualité. Les expériences démontrent que SmartPhotoCrafter surpasse les modèles génératifs existants sur la tâche d'amélioration photographique automatique, produisant des résultats photoréalistes tout en faisant preuve d'une sensibilité tonale plus élevée aux instructions de retouche. Page du projet : https://github.com/vivoCameraResearch/SmartPhotoCrafter.
Les progrès récents en vision 3D ont conduit au développement de modèles spécialisés pour soit la compréhension 3D (par exemple, la classification de formes, la segmentation, la reconstruction), soit la génération 3D (par exemple, la synthèse, la complétion et l'édition). Cependant, ces tâches sont souvent abordées de manière isolée, ce qui entraîne des architectures et des représentations fragmentées qui entravent le transfert de connaissances et la modélisation holistique des scènes. Pour relever ces défis, nous proposons UniMesh, un cadre unifié qui apprend conjointement la génération et la compréhension 3D au sein d'une architecture unique. Premièrement, nous introduisons une nouvelle Tête de Maillage (Mesh Head) qui agit comme une interface de modèle croisé, reliant la génération d'images basée sur la diffusion à des décodeurs de formes implicites. Deuxièmement, nous développons la Chaîne de Maillage (Chain of Mesh - CoM), une instanciation géométrique du raisonnement itératif qui permet l'édition sémantique de maillages pilotée par l'utilisateur via un cycle fermé de latence, d'incitation et de régénération. Troisièmement, nous intégrons un mécanisme d'autoréflexion basé sur une triade Acteur-Évaluateur-Autoréflexion pour diagnostiquer et corriger les échecs dans des tâches de haut niveau comme le sous-titrage 3D. Les résultats expérimentaux démontrent qu'UniMesh non seulement atteint des performances compétitives sur des benchmarks standard, mais débloque également de nouvelles capacités en matière d'édition itérative et d'amélioration mutuelle entre la génération et la compréhension. Code : https://github.com/AIGeeksGroup/UniMesh. Site web : https://aigeeksgroup.github.io/UniMesh.
Le réglage fin des grands modèles de langage (LLM) demeure structurellement incertain malgré les méthodes paramétriquement efficaces comme l'adaptation bas rang (LoRA), car les rôches spécifiques aux couches des représentations internes sont mal compris, conduisant à des décisions heuristiques sur les couches à adapter. Nous modélisons l'évolution des états cachés comme une trajectoire géométrique en haute dimension et proposons d'utiliser l'algorithme de Ramer-Douglas-Peucker (RDP), une méthode de simplification de polygones sans paramètre ni entraînement qui préserve les transitions structurelles globales tout en éliminant les changements localement redondants, pour identifier des points de rupture critiques le long du chemin de représentation. Surtout, nous utilisons ces pivots géométriques non seulement pour l'analyse, mais comme signal décisionnel direct pour déterminer quelles couches adapter lors du réglage fin paramétriquement efficace. En intégrant cette stratégie de sélection de couches géométriquement consciente dans le réglage fin LoRA de Qwen3-8B-Base, nous obtenons des performances supérieures sur MMLU-Math avec seulement 13 couches sélectionnées par RDP (81,67%), surpassant significativement l'adaptation complète sur 36 couches (79,32%) et la sélection aléatoire de 13 couches (75,56%), ainsi que le modèle de base Qwen3-8B-Base (74,25%). Ces résultats démontrent que l'exploitation de la géométrie intrinsèque des trajectoires de représentation fournit un signal robuste, interprétable et sans entraînement pour optimiser la sélection des couches durant l'adaptation du modèle.
Les modèles de langage de grande taille multimodaux (MLLM) sont de plus en plus utilisés comme évaluateurs automatiques, un paradigme connu sous le nom de MLLM-comme-juge. Cependant, leur fiabilité et leurs vulnérabilités aux biais restent insuffisamment explorées. Nous constatons que de nombreux juges MLLM échouent à intégrer de manière fiable les indices visuels ou textuels clés, produisant des évaluations peu fiables lorsque les preuves sont manquantes ou incohérentes, et présentant une instabilité face à des perturbations sémantiquement non pertinentes. Pour remédier à cela, nous définissons systématiquement le Biais Compositionnel dans les systèmes MLLM-comme-juge et introduisons MM-JudgeBias, un benchmark pour l'évaluer. MM-JudgeBias introduit des perturbations contrôlées sur la Requête, l'Image et la Réponse, et évalue le comportement du modèle via deux métriques complémentaires : le Biais-Déviation (BD) pour la sensibilité et le Biais-Conformité (BC) pour la stabilité. Notre jeu de données de plus de 1 800 échantillons multimodaux sélectionnés et affinés, issus de 29 benchmarks sources, permet un diagnostic granulaire de neuf types de biais à travers diverses tâches et domaines. Les expériences sur 26 MLLM de pointe révèlent une négligence systématique des modalités et des tendances d'évaluation asymétriques, soulignant le besoin de juges plus fiables.
L'augmentation des modèles de prédiction du taux de clic (CTR) basés sur les Transformers en empilant davantage de paramètres entraîne une croissance des coûts de calcul et de stockage, créant un écart croissant entre les ambitions de scalabilité et les contraintes strictes de déploiement industriel. Nous proposons LoopCTR, qui introduit un paradigme de mise à l'échelle en boucle augmentant le calcul en phase d'entraînement via la réutilisation récursive de couches de modèle partagées, découplant ainsi la complexité computationnelle de la croissance des paramètres. LoopCTR adopte une architecture en sandwich améliorée par des Résiduels Hyper-Connectés et un Mélange d'Experts, et utilise une supervision de processus à chaque profondeur de bouche pour encoder les bénéfices multi-boucles dans les paramètres partagés. Cela permet une stratégie d'entraînement multi-boucles et d'inférence zéro-boucle, où une seule passe avant sans aucune boucle surpasse déjà toutes les approches de référence. Les expériences sur trois benchmarks publics et un jeu de données industriel démontrent des performances à l'état de l'art. Une analyse oracle révèle en outre un potentiel inexploité de 0,02 à 0,04 AUC, les modèles entraînés avec moins de boucles présentant des plafonds oracle plus élevés, indiquant une frontière prometteuse pour l'inférence adaptative.
Le modèle de diffusion discrète uniforme (UDM) est récemment apparu comme un paradigme prometteur pour la modélisation générative discrète ; cependant, son intégration avec l'apprentissage par renforcement reste largement inexplorée. Nous observons qu'appliquer naïvement GRPO à UDM entraîne une instabilité de l'entraînement et des gains de performance marginaux. Pour résoudre ce problème, nous proposons \Ours, le premier cadre d'intégration d'UDM avec RL. Notre méthode est guidée par deux idées clés : (i) considérer l'échantillon propre final comme l'action fournit des signaux d'optimisation plus précis et stables ; et (ii) reconstruire les trajectoires via le processus direct de diffusion aligne mieux les chemins de probabilité avec la distribution de pré-entraînement. De plus, nous introduisons deux stratégies, Réduction d'étapes et Sans-CFG, pour améliorer davantage l'efficacité de l'entraînement. \Ours améliore significativement les performances du modèle de base sur plusieurs tâches T2I. Notamment, la précision GenEval passe de 69% à 96% et le PickScore augmente de 20,46 à 23,81, atteignant des performances de pointe dans les contextes continus et discrets. Sur le benchmark OCR, la précision passe de 8% à 57%, validant davantage la capacité de généralisation de notre méthode. Le code est disponible à l'adresse https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.
Les tâches courantes de retouche d'image adoptent généralement les modèles génératifs par diffusion comme paradigme dominant pour l'édition de contenu en conditions réelles. Parallèlement, bien que les méthodes d'apprentissage par renforcement (RL) telles que Diffusion-DPO et Flow-GRPO aient encore amélioré la qualité de génération, l'application efficace du Reinforcement Learning from Human Feedback (RLHF) à l'édition basée sur la diffusion reste largement inexplorée, en raison d'un manque de jeux de données de préférences humaines évolutifs et de cadres adaptés aux besoins d'édition diversifiés. Pour combler cette lacune, nous proposons HP-Edit, un cadre d'après-entraînement pour l'édition alignée sur les préférences humaines, et présentons RealPref-50K, un jeu de données réel couvrant huit tâches courantes et équilibrant l'édition d'objets communs. Concrètement, HP-Edit exploite une petite quantité de données de notation des préférences humaines et un grand modèle de langage visuel (VLM) préentraîné pour développer HP-Scorer – un évaluateur automatique aligné sur les préférences humaines. Nous utilisons ensuite HP-Scorer à la fois pour construire efficacement un jeu de données de préférences scalable et pour servir de fonction de récompense lors de l'après-entraînement du modèle d'édition. Nous présentons également RealPref-Bench, un benchmark pour évaluer les performances d'édition en conditions réelles. Des expériences approfondies démontrent que notre approche améliore significativement des modèles tels que Qwen-Image-Edit-2509, alignant leurs productions plus étroitement avec les préférences humaines.
La théorie de la fonctionnelle de la densité (DFT) constitue le fondement d'une grande partie de la chimie computationnelle et de la science des matériaux modernes. Pourtant, la fiabilité des prédictions issues de la DFT concernant des propriétés mesurables expérimentalement reste fondamentalement limitée par la nécessité d'approximer la fonctionnelle d'échange-corrélation (XC) inconnue. Le paradigme traditionnel pour améliorer la précision a reposé sur des formes fonctionnelles de plus en plus élaborées, conçues manuellement. Cette approche a conduit à un compromis de longue date entre l'efficacité computationnelle et la précision, qui reste insuffisant pour une modélisation prédictive fiable des expériences de laboratoire. Nous présentons ici Skala, une fonctionnelle XC basée sur l'apprentissage profond qui surpasse les fonctionnelles hybrides les plus avancées en termes de précision sur l'ensemble de référence de chimie des éléments principaux GMTKN55, avec une erreur de 2,8 kcal/mol, tout en conservant le coût computationnel réduit caractéristique de la DFT semi-locale. Cette rupture démontrée avec le compromis historique entre précision et efficacité est rendue possible par l'apprentissage de représentations non locales de la structure électronique directement à partir des données, évitant ainsi le besoin de caractéristiques de plus en plus coûteuses conçues manuellement. En exploitant un volume sans précédent de données de référence de haute précision issues de méthodes basées sur la fonction d'onde, nous établissons que l'apprentissage profond moderne permet de développer des modèles neuronaux d'échange-corrélation systématiquement perfectibles à mesure que les ensembles de données d'apprentissage s'élargissent, positionnant ainsi les simulations ab initio pour devenir progressivement plus prédictives.
Des travaux récents ont démontré le potentiel de l'orchestration de grands modèles de langage (LLM) au sein de systèmes d'optimisation évolutionnistes et agentiques. Cependant, les mécanismes sous-jacents à ces gains d'optimisation restent mal compris. Dans cette étude, nous présentons une analyse à grande échelle de la recherche évolutionniste guidée par des LLM, en collectant les trajectoires d'optimisation pour 15 modèles différents sur 8 tâches. Bien que la capacité de résolution de problèmes en zero-shot soit corrélée aux résultats finaux d'optimisation, elle n'explique qu'une partie de la variance : des modèles aux capacités initiales similaires produisent souvent des trajectoires de recherche et des résultats radicalement différents. En analysant ces trajectoires, nous constatons que les LLM optimiseurs performants agissent comme des affineurs locaux, produisant des améliorations incrémentales fréquentes tout en localisant progressivement la recherche dans l'espace sémantique. À l'inverse, les optimiseurs moins performants présentent une forte dérive sémantique, avec des percées sporadiques suivies de stagnation. Fait notable, diverses mesures de la nouveauté des solutions ne prédisent pas la performance finale ; la nouveauté n'est bénéfique que lorsque la recherche reste suffisamment localisée autour des régions performantes de l'espace des solutions. Nos résultats soulignent l'importance de l'analyse des trajectoires pour comprendre et améliorer les systèmes d'optimisation basés sur les LLM et fournissent des indications concrètes pour leur conception et leur entraînement.
Les outils d'interprétabilité sont de plus en plus utilisés pour analyser les défaillances des modèles de langage de grande taille (LLM), mais les travaux antérieurs se concentrent largement sur des invites courtes ou des configurations simplifiées, laissant leur comportement sur les benchmarks couramment utilisés sous-exploré. Pour combler cette lacune, nous étudions l'attribution contrastive basée sur LRP comme un outil pratique pour analyser les échecs des LLM dans des contextes réalistes. Nous formulons l'analyse des défaillances comme une attribution contrastive, attribuant la différence de logit entre un jeton de sortie incorrect et une alternative correcte aux jetons d'entrée et aux états internes du modèle, et introduisons une extension efficace qui permet la construction de graphes d'attribution trans-couches pour des entrées à contexte long. En utilisant ce cadre, nous menons une étude empirique systématique sur plusieurs benchmarks, comparant les motifs d'attribution entre jeux de données, tailles de modèles et points de contrôle d'entraînement. Nos résultats montrent que cette attribution contrastive au niveau du jeton peut produire des signaux informatifs dans certains cas d'échec, mais n'est pas universellement applicable, soulignant à la fois son utilité et ses limites pour l'analyse réaliste des défaillances des LLM. Notre code est disponible à l'adresse : https://aka.ms/Debug-XAI.
Les modèles de langage sont de plus en plus utilisés dans la découverte scientifique pour générer des hypothèses, proposer des solutions candidates, implémenter des systèmes et les affiner itérativement. Au cœur de ces boucles d'essai-erreur se trouve l'évaluation : le processus d'obtention de retours sur les solutions candidates via des vérificateurs, des simulateurs ou des fonctions de score spécifiques à la tâche. Si les travaux antérieurs ont souligné l'importance de l'évaluation, ils n'ont pas explicitement formulé le problème de la mise à l'échelle des boucles de découverte pilotées par l'évaluation de manière principielle et efficace pour repousser les frontières de la découverte scientifique, un problème que cet article cherche à résoudre. Nous présentons Simple Test-time Evaluation-driven Scaling (SimpleTES), un cadre général qui combine stratégiquement l'exploration parallèle, l'affinement guidé par les retours et la sélection locale, révélant des gains substantiels obtenus en mettant à l'échelle les boucles de découverte pilotées par l'évaluation selon les bonnes dimensions. Sur 21 problèmes scientifiques couvrant six domaines, SimpleTES découvre des solutions à la pointe de l'état de l'art en utilisant des modèles open-source, surpassant systématiquement les modèles de référence et les pipelines d'optimisation sophistiqués. En particulier, nous avons accéléré l'algorithme LASSO d'un facteur supérieur à 2, conçu des politiques de routage de circuits quantiques réduisant la surcharge de portes de 24,5 %, et découvert de nouvelles constructions de recouvrement minimum d'Erdős dépassant les meilleurs résultats connus. Au-delà des découvertes novatrices, SimpleTES produit des historiques de trajectoires qui supervisent naturellement l'apprentissage guidé par les retours. Lorsqu'ils sont post-entraînés sur des trajectoires réussies, les modèles améliorent non seulement l'efficacité sur les problèmes connus, mais généralisent également à des problèmes inédits, découvrant des solutions que les modèles de base ne parviennent pas à trouver. Ensemble, nos résultats établissent la mise à l'échelle efficace des boucles pilotées par l'évaluation comme un axe central pour faire progresser la découverte scientifique assistée par LLM, et fournissent un cadre simple mais pratique pour concrétiser ces gains.
Les cadres d'agents IA actuels ont réalisé des progrès remarquables dans l'automatisation des tâches individuelles, mais tous les systèmes existants servent un seul utilisateur. La productivité humaine repose sur les relations sociales et organisationnelles par lesquelles les personnes se coordonnent, négocient et délèguent. Lorsque les agents dépassent l'exécution de tâches pour une personne pour représenter celle-ci en collaboration avec d'autres, l'infrastructure pour la collaboration inter-utilisateurs des agents est totalement absente, sans parler des mécanismes de gouvernance nécessaires pour la sécuriser. Nous soutenons que la prochaine frontière pour les agents IA ne réside pas dans des capacités individuelles plus fortes, mais dans la numérisation des relations collaboratives humaines. À cette fin, nous proposons un paradigme d'agent en symbiose humaine. Chaque utilisateur possède un système d'agents permanent lié à lui, qui collabore en son nom, formant un réseau dont les nœuds sont des humains plutôt que des agents. Ce paradigme repose sur trois primitives de gouvernance. Une architecture d'identité à plusieurs couches sépare un Agent Manager de multiples Agents d'Identité spécifiques à un contexte ; l'Agent Manager détient une connaissance globale mais est architecturalement isolé de la communication externe. L'autorisation à portée limitée applique un contrôle d'accès par identité et signale les violations de limites au propriétaire. La responsabilisation au niveau de l'action enregistre chaque opération par rapport à l'identité et à l'autorisation de son propriétaire, garantissant une auditabilité complète. Nous matérialisons ce paradigme dans ClawNet, un cadre de collaboration d'agents gouverné par l'identité qui applique la liaison d'identité et la vérification d'autorisation via un orchestrateur central, permettant à plusieurs utilisateurs de collaborer de manière sécurisée via leurs agents respectifs.
Les grands modèles vision-langage (LVLM) peinent encore avec les hallucinations visuelles, où les réponses générées sont incohérentes avec l'entrée visuelle. Les méthodes existantes reposent soit sur des données annotées à grande échelle pour le fine-tuning, ce qui engendre des coûts computationnels importants, soit sur des stratégies statiques post-hoc qui négligent la nature dynamique de l'émergence des hallucinations. Pour y remédier, nous proposons un nouveau cadre d'auto-récompense permettant une atténuation dynamique des hallucinations lors de l'inférence sans supervision externe. Sur le plan empirique, nous révélons que l'hallucination visuelle présente des motifs dynamiques par phases, culminant au début de chaque phase sémantique. En nous appuyant sur ces observations, nous proposons PSRD (Phase-wise Self-Reward Decoding) pour une correction en ligne des hallucinations guidée par des signaux d'auto-récompense phase par phase. Pour réduire le coût de l'auto-évaluation répétée durant le décodage, nous distillons le signal de guidage des hallucinations des LVLM dans un modèle de récompenne léger. Ce modèle fournit ensuite un guidage en temps réel pour une intervention ciblée durant le processus de décodage, permettant une suppression précise des hallucinations. La méthode PSRD proposée réduit significativement le taux d'hallucination de LLaVA-1.5-7B de 50,0% et surpasse constamment les méthodes post-hoc existantes sur cinq benchmarks d'évaluation d'hallucinations pour quatre LVLM. Une analyse approfondie confirme que PSRD atténue efficacement la propagation des hallucinations et permet un compromis hautement contrôlable entre performance robuste et efficacité d'inférence.
Les dispositifs périphériques tels que les montres intelligentes et les lunettes connectées ne peuvent pas exécuter en continu, même les plus petits modèles de langage de 100M à 1B de paramètres, en raison des contraintes énergétiques et de calcul. Pourtant, l'inférence cloud introduit des latences de plusieurs secondes qui brisent l'illusion d'un assistant réactif. Nous présentons les micro-modèles de langage (μLM) : des modèles ultra-compacts (8M à 30M de paramètres) qui génèrent instantanément les 4 à 8 premiers mots d'une réponse contextuellement ancrée directement sur l'appareil, tandis qu'un modèle cloud en assure l'achèvement, masquant ainsi la latence cloud. Nous démontrons qu'une génération linguistique utile persiste à cette échelle extrême, nos modèles égalant les performances de plusieurs modèles existants de la classe 70M-256M. Nous concevons un cadre de génération collaborative qui repositionne le modèle cloud en tant que continuateur plutôt que répondant, permettant des transferts en milieu de phrase sans heurts et une reprise gracieuse structurée via trois méthodes de correction d'erreur lorsque l'amorce locale échoue. Les résultats empiriques montrent que les μLM peuvent initier des réponses que des modèles plus grands complètent de manière transparente, démontrant qu'une collaboration asymétrique de plusieurs ordres de grandeur est réalisable et ouvrant la voie à une IA réactive pour les dispositifs extrêmement limités en ressources. Le point de contrôle du modèle et une démonstration sont disponibles à l'adresse https://github.com/Sensente/micro_language_model_swen_project.
Nous étudions le problème de la prédiction d'étiquettes numériques contraintes aux entiers ou à un sous-ensemble d'entiers. Par exemple, le nombre de votes positifs sur des publications de médias sociaux, ou le nombre de vélos disponibles dans une station de location publique. Bien qu'il soit possible de modéliser ces valeurs comme continues et d'appliquer une régression traditionnelle, cette approche modifie la distribution sous-jacente des étiquettes, la faisant passer d'une distribution discrète à une distribution continue. Les distributions discrètes présentent certains avantages, ce qui nous amène à nous demander si de telles étiquettes entières peuvent être modélisées directement par une distribution discrète, dont les paramètres sont prédits à partir des caractéristiques d'une instance donnée. De plus, nous nous concentrons sur le cas d'utilisation des distributions de sortie des réseaux de neurones, ce qui ajoute l'exigence que les paramètres de la distribution soient continus afin que la rétropropagation et la descente de gradient puissent être utilisées pour apprendre les poids du réseau. Nous étudions plusieurs options pour de telles distributions, certaines existantes et d'autres nouvelles, et les testons sur une gamme de tâches, incluant l'apprentissage sur données tabulaires, la prédiction séquentielle et la génération d'images. Nous constatons que dans l'ensemble, les meilleures performances proviennent de deux distributions : la distribution « Bitwise », qui représente l'entier cible en bits et place une distribution de Bernoulli sur chacun d'eux, et un analogue discret de la distribution de Laplace, qui utilise une distribution avec des queues à décroissance exponentielle autour d'une moyenne continue.
Les systèmes récents de traduction parole-parole (S2ST) atteignent une forte précision sémantique mais suppriment systématiquement les vocalisations non verbales (NV), telles que les rires et les pleurs qui véhiculent une intention pragmatique, ce qui limite sévèrement leur utilité pratique. Nous abordons ce problème via trois contributions. Premièrement, nous proposons un pipeline de synthèse pour constituer des jeux de données expressifs et évolutifs afin de surmonter la limitation due à la rareté des données. Deuxièmement, nous proposons MoVE, une architecture de type « mixture of LoRA experts » avec des adaptateurs spécialisés dans l'expressivité et un routeur à pondération douce qui combine les experts pour capturer des états expressifs hybrides. Troisièmement, nous montrons que les AudioLLM pré-entraînés permettent une efficacité remarquable des données : 30 minutes de données curatisées suffisent pour obtenir de solides performances. Sur la tâche de traduction parole-parole anglais-chinois, en comparaison avec des bases de référence solides, MoVE reproduit les NV cibles dans 76 % des cas et obtient les scores les plus élevés en naturalité et en fidélité émotionnelle évaluées par des humains parmi tous les systèmes comparés, alors que les systèmes S2ST existants préservent au maximum 14 % des NV.
Les organisations autonomes décentralisées (DAO) ont tendance à explorer les petits modèles de langage (SLM) en tant que pare-feux constitutionnels natifs en périphérie de réseau pour examiner les propositions et atténuer l'ingénierie sociale sémantique. Bien que la mise à l'échelle du calcul à l'inférence (Système 2) améliore la logique formelle, son efficacité dans des environnements de gouvernance cryptéconomique hautement adversariaux reste sous-étudiée. Pour y remédier, nous présentons Sentinel-Bench, un cadre empirique de 840 inférences exécutant une ablation intra-modèle stricte sur Qwen-3.5-9B. En activant/désactivant le raisonnement latent sur des poids gelés, nous isolons l'impact du calcul à l'inférence sur un jeu de données adversariales d'Optimism DAO. Nos résultats révèlent une inversion sévère entre calcul et précision. La baseline autorégressive (Système 1) a atteint une robustesse adversarialede 100 %, une cohérence juridique de 100 % et une finalité d'état en moins de 13 secondes. À l'inverse, le raisonnement du Système 2 a introduit une instabilité catastrophique, fondamentalement causée par un taux de 26,7 % de non-convergence du raisonnement (effondrement cognitif). Cet effondrement a dégradé la stabilité du consensus essai-à-essai à 72,6 % et a imposé une surcharge de latence de 17x, introduisant des vulnérabilités critiques pour la valeur extractible de gouvernance (GEV) et la centralisation matérielle. Bien que rare (1,5 % des essais adversariaux), nous avons empiriquement capturé une "sycophantie induite par le raisonnement", où le modèle générait des monologues internes significativement plus longs (moyenne de 25 750 caractères) pour rationaliser l'échec face au piège adversarial. Nous concluons que pour les SLM natifs en périphérie opérant sous des contraintes de tolérance aux pannes byzantines (BFT), l'intuition paramétrée du Système 1 est structurellement et économiquement supérieure à la délibération itérative du Système 2 pour le consensus décentralisé. Code et jeu de données : https://github.com/smarizvi110/sentinel-bench
Les modèles de raisonnement multimodal (MRM) exploitant une réflexion basée sur le chaînage de pensées (CoT) ont révolutionné la résolution de problèmes mathématiques et logiques. Cependant, nous démontrons que ce paradigme éprouve des difficultés avec l'intelligence spatiale généralisée. Nous réalisons une évaluation complète de dix-sept modèles sur treize benchmarks spatiaux et identifions un déficit critique : l'incitation CoT dégrade systématiquement les performances en raisonnement spatial visuel. De plus, grâce à une nouvelle ablation No-Image++, nous démontrons que les MRM et les modèles de langage massifs (MLM) incités par CoT souffrent d'un apprentissage par raccourci sévère et hallucinent des détails visuels à partir d'aprioris textuels, même en l'absence d'image. Ces résultats remettent en cause l'efficacité du CoT purement textuel pour les tâches spatiales et soulignent la nécessité de paradigmes de raisonnement centrés sur la vision.
Les modèles de traitement du langage multimodal (MLLM) ont réalisé des progrès impressionnants sur les benchmarks de vision par ordinateur et langage, mais leurs capacités en matière de raisonnement visuo-cognitif et visuo-spatial restent mal comprises. Nous présentons "Mind's Eye", un benchmark à choix multiples comprenant huit tâches visuo-cognitives inspirées de tests classiques d'intelligence humaine et organisées selon une nouvelle taxonomie "A-R-T" : Abstraction, Relation et Transformation. Ces tâges sondent les processus fondamentaux de l'intelligence fluide tels que l'induction de motifs, la mise en correspondance de relations analogiques et la transformation mentale. Nous évaluons une série diversifiée de MLLM propriétaires et open-source, et comparons leurs performances à celles de participants humains. Les humains atteignent une précision de 80 %, tandis que les meilleurs MLLM restent en dessous de 50 %. L'analyse des erreurs révèle des échecs dans : (i) l'allocation de l'attention visuelle, (ii) la manipulation perceptuelle interne, et (iii) une faible abstraction des concepts visuels sous-jacents. Nos résultats suggèrent que les MLLM actuels présentent des capacités limitées en raisonnement visuo-spatial par rapport aux participants humains, soulignant la nécessité de cadres d'évaluation plus ancrés dans la cognition.
La mise en œuvre de l'interface utilisateur (UI) de jeu nécessite de traduire des maquettes stylisées en entités interactives du moteur de jeu. Cependant, les outils actuels de « capture d'écran vers code » peinent souvent avec les géométries irrégulières et les hiérarchies visuelles complexes typiques des interfaces de jeu. Pour combler cette lacune, nous présentons SPRITE, un pipeline qui transforme des captures d'écran statiques en ressources modifiables pour le moteur. En intégrant des modèles vision-langage (VLM) avec une représentation intermédiaire structurée en YAML, SPRITE capture explicitement les relations complexes entre conteneurs et les mises en page non rectangulaires. Nous avons évalué SPRITE sur un benchmark d'UI de jeu spécialement conçu et mené des entretiens avec des développeurs professionnels pour évaluer la fidélité de reconstruction et l'efficacité du prototypage. Nos résultats démontrent que SPRITE rationalise le développement en automatisant le codage fastidieux et en résolvant les imbrications complexes. En facilitant l'itération rapide dans le moteur, SPRITE estompe efficacement les frontières entre la conception artistique et la mise en œuvre technique dans le développement de jeux. Page du projet : https://baiyunshu.github.io/sprite.github.io/