Articles de recherche IA sélectionnés quotidiennement avec traductions
Alors que les modèles fondamentaux de niveau 10B ont repoussé les limites de l'inpainting d'images, leurs coûts de calcul prohibitifs entravent sérieusement leur déploiement pratique. Construire un spécialiste de tâche hautement optimisé et spécialisé offre une solution prometteuse ; cependant, une compression structurelle extrême déclenche inévitablement un grave goulot d'étranglement représentationnel. Pour relever ce défi, nous proposons Moebius, un cadre d'inpainting léger et hautement efficace. Nous reconstruisons systématiquement le backbone de diffusion en introduisant le bloc Local-λ Mix Interaction (LλMI). Composé des modules Local-λ et Interactive-λ, il résume élégamment les contextes spatiaux et les priorités sémantiques globales en matrices linéaires de taille fixe, préservant les interactions latentes complexes tout en réduisant drastiquement les paramètres. De plus, pour libérer toute la capacité représentationnelle de cette architecture très compacte, nous l'associons de manière synergique à une stratégie de distillation adaptative multi-granularité. Opérant strictement dans l'espace latent pour éviter un décodage coûteux dans l'espace pixel, cette stratégie équilibre dynamiquement plusieurs pertes basées sur le gradient pour atteindre un alignement haute-fidélité. Des expériences approfondies sur des benchmarks naturels et de portraits démontrent que cette synergie optimale permet à Moebius de rivaliser, voire de surpasser la qualité de génération du généraliste industriel de niveau 10B FLUX.1-Fill-Dev. Remarquablement, Moebius y parvient en utilisant moins de 2 % des paramètres (0,22B contre 11,9B) tout en offrant une accélération >15 fois du temps d'inférence total, établissant une nouvelle norme d'efficacité pour l'inpainting haute-fidélité. Page du projet : https://hustvl.github.io/Moebius.
L'interaction dextre avec des objets articulés est cruciale pour la manipulation domestique, d'assistance et humanoïde, où les mains multifonctions peuvent offrir des motifs de contact conformes au-delà de la simple préhension par mâchoires parallèles. Cependant, la manipulation d'objets articulés diffère de celle d'objets statiques : la pièce cible ne peut pas être actionnée directement, et son mouvement doit émerger d'un contact physique soutenu entre la main et la poignée. Cela rend complexe la transition de la génération articulée centrée sur l'objet vers une interaction dextre main-objet pilotée par la main, car la relecture de trajectoire géométrique ou l'exécution en boucle ouverte ne modélise pas la dynamique de contact nécessaire pour déplacer la partie articulée. De plus, les politiques entraînées uniquement pour l'accomplissement de tâches sous une dynamique fixe peuvent surajuster les charges de contact nominales, surtout en l'absence de retour tactile ou de force, et se dégrader lorsque la charge de contact change. Pour relever ces défis, nous présentons DragMesh-2, un cadre centré sur le contact pour l'interaction dextre avec des objets articulés, qui étend l'interaction articulée de la génération centrée sur l'objet à l'interaction dextre main-objet pilotée par la main, où le mouvement articulé doit résulter d'un contact physique. Nous proposons également PICA, un mécanisme d'entraînement informé physiquement et sensible au contact, qui injecte des signaux physiques dans l'apprentissage des politiques sans retour tactile ou de force, améliorant ainsi la robustesse et le succès des tâches sous des charges de contact variables. Enfin, nous menons une évaluation systématique sur plusieurs conditions d'amortissement et catégories d'objets articulés pour étudier la robustesse face aux variations de charge de contact, et fournissons une ressource d'interaction dextre purement géométrique pour soutenir les futures recherches en manipulation locomotrice et interaction main-objet humanoïde. Sur sept objets GAPartNet, DragMesh-2 atteint une robustesse plus forte sous variation de charge de contact que les méthodes comparées, tout en maintenant un taux de succès élevé dans les conditions d'amortissement.
LiveCodeBench (LCB) est récemment devenu un benchmark largement adopté pour évaluer les grands modèles de langage (LLMs) sur des tâches de génération de code. En sélectionnant des problèmes de programmation compétitive, en ajoutant constamment de nouveaux problèmes à l'ensemble, et en les filtrant par date de publication, LCB fournit une évaluation tenant compte de la contamination et offre une vue d'ensemble des capacités de codage. Cependant, LCB reste limité à Python, laissant ouverte la question de savoir si les LLMs peuvent généraliser à travers les divers langages de programmation requis dans le génie logiciel réel. Nous présentons Multi-LCB, un benchmark pour évaluer les LLMs dans douze langages de programmation, y compris Python. Multi-LCB transforme les tâches Python du jeu de données LCB en tâches équivalentes dans d'autres langages, tout en préservant les contrôles de contamination et le protocole d'évaluation de LCB. Étant totalement compatible avec le format original de LCB, Multi-LCB suivra automatiquement les futures mises à jour de LCB, permettant une évaluation systématique des compétences de génération de code inter-langages et exigeant des modèles qu'ils maintiennent leurs performances bien au-delà de Python. Nous avons évalué 24 LLMs pour l'instruction et le raisonnement sur Multi-LCB, mettant en évidence un surapprentissage de Python, une contamination spécifique à certains langages, et des disparités importantes dans les performances multilingues. Nos résultats établissent Multi-LCB comme un nouveau benchmark rigoureux pour l'évaluation de code multi-langages de programmation, répondant directement à la limitation principale de LCB et exposant des lacunes critiques dans les capacités actuelles des LLMs.
Les systèmes robotiques agentifs actuels peuvent écrire des programmes Code-as-Policy exécutables, observer des retours et réviser leur comportement au fil de plusieurs tentatives, mais ils restent largement guidés par des tâches : les compétences réutilisables ne sont acquises qu’après des instructions explicites. Nous étudions l’apprentissage robotique agentif par le jeu (Playful Agentic Robot Learning), où un agent de codage incarné utilise un jeu autodirigé comme étape d’apprentissage continu de compétences avant que les tâches ultérieures n’arrivent. Nous introduisons RATs, des équipes d’agents robotiques conçues pour l’acquisition de compétences pendant le jeu. Durant le jeu, RATs propose des tâches exploratoires nouvelles mais apprenables, planifie et exécute des politiques de code robotique, vérifie les progrès intermédiaires, diagnostique les échecs, réessaie avec un retour dense au niveau des étapes, et distille les exécutions réussies en une bibliothèque persistante de compétences de code. Au moment du test, l’agent réutilise les compétences pertinentes de cette bibliothèque figée pour aider à résoudre de nouvelles tâches. Les expériences sur LIBERO-PRO et MolmoSpaces montrent que les compétences apprises par le jeu améliorent les tâches ultérieures mises de côté par rapport aux références sans jeu et avec jeu aléatoire, avec des gains de 20,6 et 17,0 points de pourcentage par rapport à CaP-Agent0 sur LIBERO-PRO et MolmoSpaces respectivement. De plus, les compétences apprises peuvent être intégrées dans d’autres agents Code-as-Policy en inférence en les récupérant simplement dans le contexte, améliorant le transfert sur RoboSuite et dans le monde réel de 8,9 et 8,8 points respectivement, sans ajuster le modèle sous-jacent.
L’intelligence spatiale dans le monde réel nécessite un raisonnement sur un environnement 3D continu et évolutif, pourtant les VLM existants et les agents augmentés d’outils restent largement cantonnés à une inférence statique et sans état à partir d’observations visuelles isolées. Nous introduisons \textsc{S-Agent}, un paradigme agentiel utilisant des outils spatiaux pour comprendre et raisonner sur des images multi-vues et des vidéos continues. En formulant le raisonnement spatial comme une accumulation spatio-temporelle de preuves plutôt qu’une prédiction isolée au niveau de l’image, \textsc{S-Agent} transforme la perception spatiale en une compréhension centrée sur la scène, dépassant la reconnaissance centrée sur l’image. Plus précisément, \textsc{S-Agent} fait du VLM un planificateur sémantique qui décide des preuves nécessaires, tandis qu’une hiérarchie d’outils et d’experts spatiaux ancre les objets en 2D, les élève en preuves géométriques 3D et agrège ces preuves en connaissances spatiales de haut niveau (par exemple, comptage, mesure, orientation et position relative). De plus, un mécanisme de mémoire temporelle, incluant la Mémoire de Scène pour maintenir l’état évolutif de la scène et la Mémoire d’Agent pour accumuler le contexte de raisonnement, permet l’intégration des preuves entre les images et les étapes de raisonnement. Des expériences approfondies sur des références de raisonnement spatial multi-vues et vidéo montrent que \textsc{S-Agent} améliore systématiquement les VLM open-source et closed-source de manière non supervisée. Au-delà de l’augmentation au moment de l’inférence, le fine-tuning supervisé (SFT) sur les trajectoires spatiales S-300K générées par \textsc{S-Agent} produit \textsc{S-Agent-8B}, un agent spatial compact qui surpasse significativement les références d’échelle similaire (par exemple, Qwen3-VL-8B) et atteint des performances comparables aux modèles propriétaires avancés (par exemple, GPT-5.4 et Gemini 3).
Les benchmarks d'agents se développent rapidement, mais aucun benchmark unique ne couvre plus de quatre ou cinq des dimensions révélées par le déploiement. Cet article agrège la plus vaste analyse approfondie coordonnée à ce jour d'un benchmark d'agents industriels basé sur MCP : quatorze études d'implémentation parallèles couvrant de nouvelles classes d'actifs (incluant une extension visuelle multimodale), des orchestrations alternatives, des stratégies de récupération, des modes de raisonnement, des optimisations d'infrastructure et des sondages méthodologiques d'évaluation. En consolidant ces études avec sept benchmarks d'agents antérieurs, nous soutenons que les classements basés sur des scores agrégés sous-spécifient systématiquement l'évaluation des agents déployés. Les classements dérivés de scores agrégés ne se transfèrent pas aux paramètres hors distribution ; des rétrospectives récentes de compétitions publiques à privées fournissent une preuve empirique directe de cette instabilité des rangs. Nous proposons de classer les configurations selon la validité prédictive, c'est-à-dire la corrélation entre le rang intra-échantillon et le rang hors échantillon, plutôt que la moyenne intra-échantillon, et présentons un appareil de mesure à douze niveaux qui expose les dimensions pertinentes pour le déploiement que HELM et ses successeurs de l'ère des agents ont réduites. Cette position est opérationnalisée à travers trois critères falsifiables hors distribution avec des seuils explicites ; les preuves existantes la soutiennent partiellement mais sont trop minces pour la confirmer. Nous concluons par une conception pilote pré-enregistrée et une vision au niveau du terrain pour ce que la prochaine génération de benchmarks d'agents devrait rapporter.
Les avancées dans les champs de radiance ont permis la synthèse photoréaliste de nouvelles vues. Dans plusieurs domaines, des jeux de données réels à grande échelle ont été développés pour soutenir une évaluation comparative exhaustive et favoriser le progrès au-delà des reconstructions spécifiques à une scène. Cependant, pour les champs de radiance sans distracteurs, il manque encore un jeu de données à grande échelle contenant des ensembles d’images propres et encombrés par scène, ce qui limite le développement. Pour combler cette lacune, nous présentons DF3DV-1K, un jeu de données réel à grande échelle comprenant 1 048 scènes, chacune fournissant des ensembles d’images propres et encombrés pour l’évaluation comparative. Au total, le jeu de données contient 89 924 images capturées avec des appareils grand public afin de simuler une prise de vue occasionnelle, couvrant 128 types de distracteurs et 161 thèmes de scènes dans des environnements intérieurs et extérieurs. Un sous-ensemble sélectionné de 41 scènes, DF3DV-41, est systématiquement conçu pour évaluer la robustesse des méthodes de champs de radiance sans distracteurs dans des scénarios difficiles. En utilisant DF3DV-1K, nous évaluons neuf méthodes récentes de champs de radiance sans distracteurs ainsi que le 3D Gaussian Splatting, identifiant les méthodes les plus robustes et les scénarios les plus difficiles. Au-delà de l’évaluation comparative, nous démontrons une application de DF3DV-1K en affinant un améliorateur 2D basé sur la diffusion pour améliorer les méthodes de champs de radiance, obtenant des améliorations moyennes de 0,96 dB en PSNR et de 0,057 en LPIPS sur l’ensemble de test (par exemple, DF3DV-41) et le jeu de données On-the-go. Nous espérons que DF3DV-1K facilitera le développement de la vision sans distracteurs et encouragera le progrès au-delà des approches spécifiques à une scène. Le jeu de données et le classement sont disponibles à l’adresse https://johnnylu305.github.io/df3dv1k_web/.
La génération à double référence style-contenu vise à synthétiser une image qui préserve la structure et la sémantique d'une référence de contenu tout en adoptant le style d'une référence de style distincte. Malgré les progrès récents, ce cadre reste difficile car les modèles doivent équilibrer la fidélité au contenu, l'alignement stylistique et le respect des instructions, tout en évitant les fuites sémantiques provenant de la référence de style. Un goulet d'étranglement clé est le manque de données triplet à grande échelle avec une séparation nette entre contenu et style et une vaste couverture stylistique de type « longue traîne ». Dans ce travail, nous proposons FreeStyle, un cadre de génération à double référence évolutif basé sur l'extraction de LoRA issues de la communauté. Nous traitons les LoRA communautaires comme des ancres compositionnelles pour le style et le contenu, et concevons un pipeline rigoureux de génération et de filtrage pour construire à grande échelle des triplets « Référence de style » et « Référence de contenu » sur plusieurs modèles de base. Pour remédier aux fuites de contenu, nous adoptons un programme en deux étapes avec des mécanismes de désintrication spécifiques à chaque étape : une contrainte d'enrichissement au niveau de l'attention qui supprime les fuites de la référence de style dans l'étape de transfert de style, et une stratégie de modulation RoPE sensible à la fréquence qui cible les fuites basées sur la correspondance positionnelle dans l'étape plus difficile de la double référence. Nous introduisons également un benchmark couvrant à la fois la génération à référence unique de style et à double référence, avec des évaluations de la similarité stylistique, de la préservation du contenu, de l'esthétique, du respect des instructions et du rejet des fuites. Le benchmark intègre un score d'alignement de contenu invariant au style (CAS) et introduit un score de rejet calibré basé sur un VLM pour évaluer la fiabilité de la génération et la suppression des fuites. Des expériences approfondies montrent que notre modèle atteint un équilibre solide entre l'alignement stylistique, la préservation du contenu et la suppression des fuites.
Les modèles de diffusion et de flux conditionnels échouent systématiquement à satisfaire les contraintes mêmes qui définissent leur tâche. Par exemple, un modèle conditionné par la profondeur produit souvent des images dont la profondeur extraite à nouveau ne correspond pas à l'entrée, alors même que l'opérateur direct – le prédicteur de profondeur qui définit la contrainte – est disponible à la fois lors de l'entraînement et de l'inférence. Les approches existantes se répartissent généralement en deux catégories : les modèles supervisés qui traitent le signal de conditionnement comme un indice statique et ignorent l'information d'alignement lors de l'inférence, et les méthodes basées sur le guidage qui le consultent via des mises à jour linéaires réglées manuellement, sacrifiant généralement la fidélité à la condition au profit de la plausibilité de l'échantillon généré. Nous soutenons que le fossé fondamental dans les deux paradigmes est que le modèle n'est jamais entraîné à utiliser sa propre erreur d'alignement. Nous introduisons FlowBender, un cadre en boucle fermée qui traite cette erreur comme une entrée de première classe, entraînant le réseau à apprendre une politique de correction conditionnée par le retour d'information au moment de l'inférence. À chaque étape, un passage prospectif non guidé estime le signal propre, un écart spécifique à la tâche est calculé via l'opérateur direct, et un passage de raffinement consomme ce signal pour produire une vélocité corrigée. Nous proposons plusieurs variantes de FlowBender, notamment une formulation basée sur le gradient pour les opérateurs différentiables et une variante d'ordre zéro pour les contextes non différentiables tels que la compression JPEG. Pour un échantillonnage efficace, nous introduisons un raccourci de pas antérieur qui permet une correction en boucle fermée à un coût de calcul supplémentaire minimal. Dans la traduction d'image à image, la restauration et la texturation de maillage 3D, FlowBender surpasse systématiquement les lignes de base supervisées standard, l'entraînement augmenté par perte d'alignement et le guidage au moment de l'inférence de pointe, améliorant simultanément la fidélité et la plausibilité plutôt que de les opposer l'une à l'autre. Page du projet : https://flow-bender.github.io/
Créer des illusions visuelles 3D, c’est-à-dire un maillage 3D unique qui révèle des sémantiques totalement différentes selon l’angle de vue, est un défi fascinant mais difficile. Les méthodes existantes basées sur l’optimisation sont lentes et peuvent produire des couleurs sursaturées. En revanche, les approches d’assemblage naïf ne parviennent pas à générer des objets géométriquement cohérents, ce qui entraîne des coutures non naturelles visibles et des fuites sémantiques. Dans cet article, nous présentons un cadre rapide et sans entraînement pour générer des illusions visuelles 3D pilotées par du texte. Notre approche découple la génération en deux étapes. Premièrement, nous proposons un processus de débruitage à deux branches et à espaces croisés. Ce processus décode dynamiquement les latents 3D dans l’espace voxel pour un alignement d’orientation guidé par CLIP et une fusion de champs de distance signée (SDF), garantissant une fusion géométrique sans couture. Deuxièmement, nous introduisons un module de synthèse de texture conditionné par la vue qui projette et agrège les a priori de diffusion 2D spécifiques à chaque vue sur la géométrie fusionnée. Des expériences approfondies montrent que notre méthode génère des illusions 3D hautement réalistes et à double sémantique en seulement 3 à 5 minutes. Elle surpasse significativement les méthodes existantes en termes d’intégrité géométrique, de reconnaissabilité sémantique et d’efficacité. Page du projet : https://siang1105.github.io/JanusMesh.github.io/
Les World Action Models (WAMs) reposent couramment sur la génération vidéo pour faire le lien entre la modélisation visuelle du monde et le contrôle robotique. Cependant, les WAMs basés sur la vidéo présentent trois limitations couplées : la densité des tokens futurs multi-images rend l'inférence coûteuse, la prédiction vidéo complète consacre des capacités à des détails temporels et d'apparence non pertinents pour l'action, et l'imagination future à long terme peut introduire des erreurs qui induisent en erreur la prédiction d'action. Ces problèmes soulèvent une question simple : un modèle d'action mondial a-t-il vraiment besoin de la génération vidéo ? Nous proposons ImageWAM, un framework WAM simple qui réutilise des modèles d'édition d'images pré-entraînés pour la prédiction d'actions robotiques. Contrairement à la génération vidéo, l'édition d'images offre un a priori mieux adapté : elle ne nécessite que de modéliser une transformation de l'image cible, se concentre sur les différences visuelles actuelles-cibles pertinentes pour l'action, et ancre les instructions de tâche dans des changements visuels localisés grâce au pré-entraînement à l'édition. En pratique, ImageWAM ne décode pas l'image cible au moment de l'inférence ; il conditionne plutôt un expert en actions par appariement de flux sur les caches KV produits par le débruitage d'édition d'images, en les utilisant comme un contexte monde-action compact. ImageWAM surpasse les lignes de base VLA standard et les WAMs concurrents comparables sans pré-entraînement supplémentaire de politique lors de différentes expériences en simulateur et dans le monde réel. Il réduit également les FLOPs à 1/6 et la latence à 1/4 de celles des WAMs basés sur la vidéo. L'analyse de l'attention montre en outre que les caches d'édition se concentrent sur les régions de changement pertinentes pour la tâche, confirmant que l'édition d'images est une alternative efficace à la modélisation monde-action basée sur la vidéo.
Les modèles du monde sont de plus en plus considérés comme une étape décisive vers l'intelligence générale artificielle, pourtant la modélisation du monde physique exige bien plus que la génération d'images convaincantes à la demande : elle nécessite un état interne du monde qui continue d'évoluer dans le temps, indépendamment de l'observation, afin que les objets persistent et que les événements se déroulent jusqu'à leur terme, qu'une caméra les regarde ou non – un peu comme la Lune maintient son orbite même lorsque personne ne l'observe. Cette exigence constitue un angle mort des référentiels existants, qui récompensent des propriétés de surface telles que la fidélité, le mouvement et la contrôlabilité de la caméra, sans jamais se demander si un monde généré continue d'évoluer une fois qu'il n'est plus observé. Nous introduisons WRBench, le premier référentiel de diagnostic systématique qui traite le mouvement de la caméra comme une intervention sur l'observabilité et résout l'évaluation en une chaîne calibrée sur l'humain, qui demande si la caméra exécute l'interaction demandée, si la scène reste continue et identifiable lorsqu'elle est en vue, et si une cible qui réapparaît reste cohérente avec l'événement qui a été mis en mouvement. À travers 9 600 vidéos provenant de 23 modèles couvrant quatre paradigmes de contrôle, un résultat s'avère tenace : les systèmes actuels maintiennent le monde observé comme un plan-séquence, reprenant une cible qui réapparaît dans l'état où elle a été abandonnée plutôt que de faire progresser l'événement pendant qu'il était invisible. Parce que cet échec se reproduit à travers les paradigmes de contrôle, les familles de modèles et les augmentations d'échelle, une évolution robuste de l'état du monde ne découle ni d'images plus nettes, ni d'un contrôle plus précis, ni de priors géométriques plus riches, ni du simple nombre de paramètres. Nous soutenons donc que la stabilité du noyau d'état physique et la cohérence des lignes d'univers sous intervention du point de vue devraient devenir des objectifs de première classe dans la conception des modèles du monde, afin qu'un modèle du monde capture la manière dont le monde va se dérouler plutôt que l'apparence de la prochaine image.
Les grands modèles de langage (LLMs) échouent souvent lorsque la réponse nécessite d'identifier un indice petit mais décisif dans un contexte long ou complexe, comme une seule ligne dans une trace d'outil ou un détail subtil dans une image. Nous proposons ContextRL, une méthode d'apprentissage par renforcement (RL) contextuelle qui améliore le raisonnement à long horizon et les performances multimodales grâce à un objectif auxiliaire indirect. Au lieu de superviser uniquement la réponse finale, ContextRL présente au modèle une requête, une réponse et deux contextes très similaires, et le récompense pour avoir sélectionné le contexte qui soutient le couple requête-réponse, encourageant ainsi un ancrage précis. Nous construisons des données contextuelles contrastives dans deux domaines : pour les agents de codage, les trajectoires servent de contextes, produisant 1 000 paires construites par filtrage de conditions ; pour le raisonnement multimodal, les images servent de contextes, produisant 7 000 paires construites par édition générative et recherche de similarité. ContextRL obtient des gains moyens de +2,2 % par rapport à GRPO standard sur 5 benchmarks à long horizon, et de +1,8 % sur 12 benchmarks variés de questions-réponses visuelles. Pour dissocier l'effet de l'objectif proposé de celui de données supplémentaires, nous comparons à des lignes de base d'augmentation de données qui réutilisent les mêmes contextes contrastifs comme exemples standard requête-contexte-réponse. Ces lignes de base n'apportent que peu ou pas d'amélioration, montrant que les gains proviennent de l'objectif de sélection de contexte proposé plutôt que des seules données contrastives.
Atteindre une manipulation robotique dextre dans le monde réel dépend fortement de la supervision humaine et de l'ingénierie algorithmique, ce qui constitue un goulot d'étranglement central dans la quête d'une intelligence physique générale. Bien que les agents de codage émergents puissent générer du code pour automatiser la recherche d'algorithmes, leurs succès restent largement confinés aux environnements numériques. Nous conjecturons que l'abstraction manquante pour automatiser la recherche en robotique est une boucle de rétroaction reproductible pour l'amélioration des politiques dans le monde réel : réinitialiser la scène, exécuter une politique, vérifier le résultat, puis affiner l'itération suivante. Pour combler cette lacune, nous introduisons ENPIRE, un cadre d'exploitation pour agents de codage qui instancie cette routine de rétroaction physique avec quatre modules principaux : un module Environnement (EN) pour la réinitialisation et la vérification automatiques, un module d'Amélioration de Politique (PI) qui lance le raffinement de la politique, un module de Déploiement (R) pour évaluer les politiques avec un ou plusieurs robots physiques opérant en parallèle, et un module d'Évolution (E) dans lequel les agents de codage analysent les journaux, consultent la littérature, améliorent l'infrastructure d'entraînement et le code des algorithmes pour remédier aux modes de défaillance. Ce système en boucle fermée transforme l'apprentissage de la manipulation dans le monde réel en une procédure d'optimisation contrôlable, minimisant l'effort humain tout en permettant des ablations équitables entre les variantes de recettes d'entraînement et d'agents. Propulsés par ENPIRE, les agents de codage de pointe peuvent entraîner de manière autonome une politique atteignant un taux de succès de 99 % sur des tâches de manipulation dextre exigeantes, telles que l'organisation d'une boîte à épingles, le serrage d'un collier de serrage et l'utilisation d'outils, un processus qui s'accélère encore lorsque nous déployons une équipe d'agents sur une flotte de robots. Nos résultats suggèrent une voie pratique et évolutive vers le déploiement d'agents de codage pour faire progresser de manière autonome la robotique dans le monde physique.
La pensée visuelle ne doit pas seulement paraître juste ; elle doit montrer ses preuves. Bien que les récents modèles vision-langage (VLM) puissent générer des traces de raisonnement en langage naturel, ces traces laissent souvent implicites les régions d'image de soutien, ce qui les rend difficiles à vérifier et à superviser. Nous introduisons la pensée visuellement ancrée, un processus de raisonnement dans lequel les modèles entremêlent des réflexions en langage naturel avec des ancrages explicites (points ou boîtes) des preuves visuelles utilisées à chaque étape. Cela permet au modèle d'exprimer un raisonnement intermédiaire en langage tout en ancrant des objets clés dans les régions d'image auxquelles ils se réfèrent. Pour entraîner ce comportement, nous construisons un pipeline de synthèse évolutif qui distille des traces de raisonnement visuel correctes, extrait les objets visuels requis par ces traces, les ancre à l'aide d'un agent basé sur SAM3, et dérive une supervision alignée de points et de boîtes à partir des masques résultants. Nous proposons également un apprentissage par renforcement sensible à l'ancrage, qui combine des récompenses de justesse des réponses avec des récompenses d'ancrage denses évaluant si les références d'objets générées correspondent aux preuves visuelles correctes. Sur deux benchmarks de comptage et quatre benchmarks de raisonnement spatial, l'ajout d'une pensée visuellement ancrée à Gemma3-4B-IT améliore systématiquement les performances par rapport au modèle original et à la baseline de pensée non ancrée. En raisonnement spatial, les modèles à 4B avec pensée visuellement ancrée égalent, et dans certains cas surpassent, Gemma3-27B-IT de la même famille de modèles. Notre analyse montre que l'ancrage par points est bien adapté au comptage, tandis que l'ancrage par boîtes bénéficie le plus des récompenses d'ancrage explicites dans les tâches spatiales. Dans l'ensemble, nos résultats montrent que les VLM pensent mieux lorsque leurs pensées intermédiaires sont liées aux régions d'image qui les rendent vraies.
Les pipelines LLM multi-étapes échouent en raison des interactions entre les étapes de recherche, de raisonnement et de formatage, de sorte que l'optimisation par prompt seul peut passer à côté des goulets d'étranglement dans la chaîne. Nous présentons FAPO (Fully Autonomous Prompt Optimization), un framework qui permet à Claude Code d'optimiser un pipeline LLM dans une base de code standardisée. FAPO évalue un pipeline, inspecte les étapes intermédiaires, diagnostique les échecs, propose des modifications ciblées et valide itérativement des variantes afin d'optimiser par rapport à une fonction de score. Il tente d'abord des modifications de prompts et, uniquement lorsque l'optimisation des prompts semble insuffisante, modifie la structure de la chaîne dans le périmètre autorisé lorsque l'attribution identifie un goulet d'étranglement structurel. Sur six benchmarks et trois modèles de tâches, FAPO bat la baseline GEPA dans 15 des 18 comparaisons modèle-benchmark. Dans 11 comparaisons modèle-benchmark, FAPO l'emporte avec des intervalles de moyenne ± écart-type des essais non chevauchants, et le gain moyen FAPO-GEPA est de +14,1 points de pourcentage. Dans les six comparaisons HoVer et IFBench où la recherche prioritaire par prompts a débouché sur des modifications structurelles, FAPO remporte les six avec un gain moyen de +33,8 points de pourcentage. FAPO améliore également les performances sur des tâches de sécurité : sur CTIBench-RCM, une tâche de sécurité de type CVE-to-CWE, FAPO en mode prompt uniquement augmente la précision sur le test de +4,0 points de pourcentage sur GPT-5, +7,1 points sur Foundation-Sec-8B-Instruct et +2,0 points sur Foundation-Sec-8B-Reasoning. Ces résultats positionnent FAPO comme une technique d'optimisation de pipeline de pointe à la fois pour les tâches généralistes et celles axées sur la sécurité.
Les modèles fondamentaux incarnés devraient bénéficier de la mise à l'échelle des données, à l'instar des grands modèles de langage, mais ils se heurtent à un goulot d'étranglement bien plus serré en matière de données. Les trajectoires de robots réels téléopérées restent la principale source de pré-entraînement en raison de leur supervision précise des actions et de leur alignement avec l'incarnation, mais leur passage à l'échelle est limité par un coût de collecte élevé, une difficulté d'acquisition, et une faible diversité comportementale et environnementale. Ces limitations ont suscité un intérêt pour la vidéo humaine égocentrique en tant qu'alternative scalable, nettement moins coûteuse et plus diversifiée pour le pré-entraînement des modèles incarnés. Cependant, son efficacité par rapport aux données de robots réels téléopérées reste peu explorée. Pour répondre à cette question, nous menons une étude systématique comparant la vidéo humaine égocentrique et les trajectoires de robots réels téléopérées comme sources de données de pré-entraînement pour les modèles fondamentaux incarnés, dans le cadre de protocoles de post-entraînement et de validation fixes. De manière surprenante, nous constatons que les données égocentriques, lorsqu'elles sont traitées via un pipeline soigneusement conçu de filtrage et d'étiquetage, ne constituent pas seulement un substitut viable pour le pré-entraînement des modèles, mais peuvent conduire à des performances supérieures. Avec une même quantité de données de pré-entraînement, les modèles pré-entraînés sur des données égocentriques atteignent une perte de validation inférieure de 24 % sur la prédiction d'actions de robots réels, ainsi que des taux de réussite supérieurs de 52,5 % et 90 % respectivement pour l'exécution de tâches sur robots réels en distribution et hors distribution. Cette découverte confirme un paradigme scalable pour les modèles fondamentaux incarnés : pré-entraîner sur de la vidéo humaine égocentrique pour apprendre des représentations diverses du monde, puis s'adapter avec une petite quantité de données étiquetées de robots réels pour un alignement de l'espace d'action. Nous espérons que cette étude encouragera une exploration plus large des données égocentriques et offrira des orientations pour l'évaluation de la qualité des données avant une coûteuse collecte de données robotiques.
Les modèles de monde vidéo évoluent vers la préservation d'un monde observé sous un mouvement contrôlable de la caméra et des objets, tout en permettant à son état environnemental de changer. Pourtant, ces contrôles restent isolés, et la génération météorologique repose généralement sur une vidéo source ou une scène reconstruite qui spécifie déjà la structure future. Nous étudions un cadre source-à-état ancré sur la première image, où le modèle part d'une seule image et suit des contrôles explicites de la caméra et des objets ainsi qu'une instruction météorologique optionnelle, puis génère une vidéo qui soit préserve le monde source, soit le transfère vers un état météorologique cible. Pour relever ces défis, nous construisons d'abord HoloStateData, un ensemble de données vidéo d'état qui transforme diverses vidéos en échantillons de contrôle unifiés pour la supervision de la caméra, des objets et de la météo. Ensuite, nous introduisons Holo-World, un modèle de monde vidéo contrôlable unifié qui contrôle conjointement la scène à partir d'une seule image. Son adaptateur de scène unifié factorise la préservation du monde et le transfert météorologique en sous-espaces de paramètres distincts, utilisant un arrière-plan rendu, des tampons de géométrie et des contrôles d'objets pour maintenir la structure de scène contrôlée tout en modélisant l'apparence dépendante de la météo et les effets de particules. De plus, le CFG décomposé scène-météo guide les résidus de scène et de météo séparément, renforçant les effets météorologiques cibles sans suramplifier la condition complète. Des expériences quantitatives et qualitatives démontrent que Holo-World maintient un contrôle précis de la caméra et des objets avec une structure de scène cohérente tout en transférant les scènes vers divers états météorologiques cibles, surpassant les bases de référence d'édition météorologique vidéo-à-vidéo sur la génération d'état météorologique. Notre page de projet est disponible à l'adresse https://xiangchenyin.github.io/Holo-World/.
L'entraînement en FP4 promet des réductions substantielles des coûts mémoire et de calcul pour le pré-entraînement des LLM, pourtant les chemins et recettes matériels FP4 actuels, incluant les systèmes de classe Blackwell/Rubin de NVIDIA et les GPU de la série MI350 d'AMD, restent centrés sur les éléments de données E2M1. Dans cette étude, nous identifions une limitation fondamentale de ce choix : les formats non uniformes tels que E2M1 souffrent intrinsèquement d'un biais de rétrécissement (Shrinkage Bias), une erreur d'arrondi négative systématique causée par l'asymétrie géométrique de leurs intervalles représentables. Nous montrons que ce biais s'accumule de manière multiplicative à travers les couches et est amplifié par la Transformée de Hadamard aléatoire (RHT), fournissant une explication unifiée de l'instabilité d'entraînement observée dans les recettes FP4 existantes basées sur E2M1. En revanche, les grilles uniformes (E1M2/INT4) contournent cette erreur de géométrie de grille et convertissent mieux l'utilisation améliorée des compartiments issue de RHT en une qualité de quantification supérieure. Sur la base de cette constatation, nous proposons UFP4, une recette d'entraînement uniforme 4 bits qui applique RHT à toutes les trois opérations GEMM d'entraînement tout en limitant l'arrondi stochastique à dY seul. Sur le pré-entraînement long de Dense 1,5B, MoE 7,9B et MoE 124B, UFP4 atteint systématiquement une dégradation relative de la perte par rapport au BF16 plus faible que les références solides basées sur E2M1, soutenu par une analyse des lois de mise à l'échelle et des études d'ablation. Nos résultats suggèrent que les accélérateurs futurs devraient supporter les grilles uniformes 4 bits de style E1M2/INT4 comme primitives d'entraînement de première classe aux côtés de E2M1.
Les progrès de l'IA juridique dépendent de plus en plus d'un accès à grande échelle à des textes juridiques faisant autorité. Pourtant, l'un des niveaux les plus déterminants du droit américain reste largement absent des corpus lisibles par machine existants : les ordonnances locales. Les codes locaux régissent le zonage, le logement, les licences commerciales, la santé publique, le bruit, le contrôle animalier et bien d'autres domaines de la réglementation quotidienne, mais ils sont fragmentés sur des plateformes de fournisseurs conçues pour la navigation humaine plutôt que pour un accès en masse à la recherche. Nous présentons LOCUS – le corpus d'ordonnances locales pour les États-Unis (Local Ordinance Corpus for the United States) – un corpus complet et une couche d'accès harmonisé au niveau du comté pour les codes d'ordonnances municipales et de comté américains. Le corpus brut, disponible pour diffusion aux chercheurs, représente la quasi-totalité des codes d'ordonnances municipales et de comté accessibles au public. Le corpus brut qui en résulte contient des codes provenant de 9 239 villes et comtés. Une couche d'accès LOCUS harmonisée au niveau du comté, de plus petite taille, couvre les 2 309 plus grands des 3 144 comtés américains, représentant une majorité de la population. Nous utilisons l'OCR pour traiter la myriade de formats de documents qui ont empêché le droit d'être une ressource publique. Nous publions le corpus avec des métadonnées de couverture afin de soutenir la reproductibilité, la recherche avancée en IA juridique et l'expansion progressive de l'accès lisible par machine au droit local. Nous entraînons un ensemble de classifieurs et de scoreurs basés sur ModernBERT pour faciliter l'analyse du droit local américain selon plusieurs dimensions, telles que l'opacité et le paternalisme, qui n'avaient pas encore été étudiées à cette échelle. LOCUS-v1 et ses modèles dérivés sont disponibles à l'adresse : https://huggingface.co/datasets/LocalLaws/LOCUS-v1
La distance de Fréchet Inception (FID) est l'arbitre de facto de la génération d'images, pourtant la plupart des articles ne rapportent qu'un seul chiffre issu d'un unique modèle entraîné avec une unique graine d'échantillonnage. Dans quelle mesure ce chiffre est-il reproductible si l'on réentraîne le modèle, ou simplement si l'on rééchantillonne à partir de celui-ci ? Dans cet article, nous traitons la FID comme une variable aléatoire sur un panel à deux axes de graines d'entraînement et de génération, et nous mesurons directement sa variance sur plusieurs centaines de réseaux SiT entraînés sur ImageNet 256x256 conditionné par classe. Nous rapportons des résultats surprenants : (a) Réentraîner le modèle avec la même recette mais une graine différente déplace la FID 3,2 fois plus (dans l'espace des caractéristiques d'Inception) que le rééchantillonnage à partir d'un réseau fixe. (b) Cet écart est dû à trois facteurs : l'initialisation aléatoire, l'ordre des données et le bruit gaussien par étape de la perte de flow-matching. (c) Augmenter la puissance de calcul ou la taille du modèle ne réduit guère la dispersion, maintenant le coefficient de variation (CoV) de la FID dans une bande de 1 à 2 %. (d) Le réglage du guidage sans classifieur par cellule réduit de moitié la dispersion mais remanie les graines les plus performantes, et une graine d'entraînement chanceuse atteint la même FID avec jusqu'à deux fois moins de calculs qu'une graine malchanceuse. Sur la base de ces résultats, nous recommandons un nouveau protocole d'évaluation de la FID : évaluer sous un guidage optimal par cellule, considérer tout écart de FID inférieur au CoV empirique d'environ 1,3 % comme non concluant, et rapporter une barre d'erreur sur plusieurs graines d'entraînement plutôt qu'un seul chiffre de FID.
Les approches récentes de génération augmentée par récupération (RAG) ont démontré une forte capacité à traiter des requêtes complexes, mais les recherches actuelles négligent un défi crucial : différents récupérateurs nécessitent des stratégies de formulation de requêtes fondamentalement différentes pour une performance optimale. Dans ce travail, nous présentons la première analyse systématique de la manière dont les LLM peuvent apprendre à adapter leurs stratégies de formulation de requêtes pour différents récupérateurs via l'apprentissage par renforcement (RL). Notre étude empirique révèle que le RL permet effectivement d'apprendre à un LLM à adapter ses requêtes aux caractéristiques spécifiques du récupérateur. Nous découvrons que différents récupérateurs présentent des styles de requêtes optimales étonnamment distincts (par exemple, descriptifs vs. interrogatifs), suggérant que les stratégies apprises pour un récupérateur sont inefficaces pour un autre. Nous montrons en outre que la performance peut être améliorée en intégrant des directives humaines spécifiques au récupérateur et en augmentant la taille du modèle. Pour faciliter l'apprentissage sur des trajectoires multi-étapes de récupération, nous introduisons une technique de déploiement basée sur le branchement qui améliore la stabilité de l'entraînement. Notre travail fournit les premières preuves empiriques et des pistes exploitables pour construire des systèmes RAG véritablement conscients du récupérateur. Le code et les ressources sont disponibles à l'adresse https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval.
Les agents appelant des outils et respectant les politiques dans les domaines du service client doivent maintenir les états de tâche d'un tour à l'autre tout en exécutant des appels d'outils et en obéissant aux politiques du domaine. Les états de tâche sont constitués de faits pertinents, d'identifiants, de contraintes et de conditions observés lors des interactions avec l'utilisateur et des appels d'outils. Dans les agents standards, les états de tâche ne sont pas représentés séparément. Les observations, les retours d'outils et les instructions de politique sont placés dans le prompt, obligeant les agents à reconstruire les états pertinents à partir du prompt à chaque décision de l'action suivante. Cette conception rend la gestion des états implicite, créant deux modes de défaillance courants. Un agent peut récupérer les bons faits mais fonder ultérieurement sa décision sur des informations obsolètes, manquantes ou incorrectes ; et un appel d'outil syntaxiquement valide peut néanmoins violer une politique du domaine qui dépend de l'état de tâche actuel. Nous présentons LedgerAgent, une méthode au moment de l'inférence pour les agents appelant des outils, qui maintient les états de tâche observés dans un registre séparé et intègre ces états dans le prompt. Le registre est également utilisé pour vérifier les contraintes de politique dépendant de l'état avant l'exécution des appels d'outils modifiant l'environnement, bloquant ainsi les violations de politique. À travers quatre domaines de service client et un panel mixte de modèles ouverts et fermés, LedgerAgent améliore le passk moyen par rapport à une approche standard d'appel d'outils basée sur le prompt, avec les gains les plus importants sous des métriques de cohérence multi-essai plus strictes.
Les modèles d'attention linéaire hybrides offrent une voie intéressante pour accélérer l'inférence sur de longs contextes : ils réduisent le coût quadratique et la charge du cache KV de l'attention softmax complète tout en conservant une grande partie de la qualité des modèles de type Transformer. Une approche pratique pour obtenir de tels modèles consiste à convertir un Transformer pré-entraîné plutôt que d'en pré-entraîner une nouvelle architecture de zéro, mais cette conversion reste fragile. Le simple fait de copier les projections d'attention du professeur dans un étudiant Gated DeltaNet (GDN) ne spécifie pas les nouvelles dynamiques de décroissance récurrente, d'écriture et de contrôle de la porte de sortie. En conséquence, le modèle converti démarre souvent dans un régime dynamique défavorable et doit consacrer de nombreux tokens de distillation à réparer l'initialisation plutôt qu'à apprendre le comportement restant du professeur. Nous proposons Taylor-Calibrate, une méthode d'initialisation légère pour les étudiants GDN hybrides. Cette méthode utilise les statistiques d'attention du professeur guidées par Taylor pour définir la projection de valeur, l'échelle de temps de la mémoire, les portes d'écriture et la porte de sortie, puis applique une courte étape d'alignement par couche pour faire correspondre chaque couche convertie à la sortie du professeur. Sur quatre configurations de professeur et trois politiques de couches conservées, Taylor-Calibrate produit des étudiants zéro-shot nettement plus performants, avec une amélioration allant jusqu'à 88× dans une ablation représentative, et atteint des objectifs de récupération appariés avec 4,9 à 9,2 fois moins de tokens d'entraînement qu'une conversion naïve.
Les propriétés mécaniques précises (ou des matériaux) — module d'Young (E), coefficient de Poisson (ν) et masse volumique (ρ) — sont essentielles pour des simulations physiques fiables des mondes numériques, mais la plupart des actifs 3D ne disposent pas de ces informations. Nous proposons AdaVoMP, une méthode permettant de prédire avec précision des propriétés (E, ν, ρ) spatialement variables et denses pour des objets 3D d'entrée, quelle que soit leur représentation, améliorant ainsi la résolution, la précision et l'efficacité mémoire par rapport à l'état de l'art. Le fondement de notre technique est une structure de voxels adaptative et éparse (SAV) qui représente efficacement à la fois la forme 3D d'entrée et le champ de matériau de sortie. Nous remplaçons le modèle à voxels fixes de la méthode antérieure la plus précise, VoMP, par un nouveau modèle encodeur-décodeur à transformeur éparse qui apprend à générer de manière autorégressive une SAV unique pour chaque forme d'entrée afin de représenter ses matériaux, atteignant une résolution 16³ fois plus élevée que les travaux antérieurs. Les expériences montrent qu'AdaVoMP estime des propriétés volumétriques plus précises, même avec un temps de calcul en phase de test inférieur à celui de tous les travaux antérieurs. Cela nous permet de convertir des objets 3D complexes et haute résolution en ressources prêtes pour la simulation, ce qui donne lieu à des simulations déformables réalistes.
Les systèmes d'IA déployés dans les flux de travail juridiques hallucinent à des taux que les métriques agrégées rapportent à environ 52 %, mais cette moyenne masque la concentration des erreurs et leur direction, laissant les responsables de la conformité sans signal exploitable pour un déploiement fiable. Nous présentons LegalHalluLens, un cadre d'audit comprenant trois composantes : des profils typés d'hallucination pour quatre catégories de revendications juridiquement motivées (numériques, temporelles, obligations/droits, factuelles) sur CUAD (Hendrycks et al., 2021) ; un Indice de Direction du Risque (IDR) qui réduit le biais omission versus invention en un scalaire unique comparable entre déploiements ; et un pipeline de débat typé calibré à la fois sur les magnitudes et les directions. À travers 510 contrats et 249 252 instances au niveau des clauses, nous mesurons un écart intra-modèle d'environ 38 à 40 points de pourcentage entre les revendications d'obligation/numériques et temporelles que les rapports agrégés masquent, et montrons que deux systèmes avec des taux appariés de 52 % peuvent avoir des IDR opposés. Le pipeline de débat réduit les détections fabriquées de 45 %, avec des gains par catégorie suivant le diagnostic, égalant les API commerciales avec un modèle de base sensiblement plus petit (4 milliards de paramètres actifs). Les profils typés et l'IDR révèlent des modes de défaillance que les métriques agrégées cachent ; nous montrons en outre que ces diagnostics servent d'entrées de calibration pour les pipelines de débat multi-agents, où les défis du Skeptic et les portes asymétriques ciblant les modes de défaillance mesurés surpassent le débat génériquement réglé. Le cadre soutient un approvisionnement sensible à la direction, la responsabilité et la conception d'agents pour l'IA juridique déployée dans la nature.
Les contextes de patients couvrent des centaines de documents hétérogènes et des milliers de points de données structurés, mais les métadonnées au niveau des documents dont les systèmes d'IA ont besoin pour la récupération et le triage sont absentes ou incomplètes. La génération augmentée de récupération standard échoue sur ces données, en raison d'une mauvaise gestion du raisonnement temporel, des dépendances entre documents et des métadonnées manquantes. Nous déployons ACIE (Extraction Clinique Agentique) au Centre Hospitalier Universitaire d'Essen : un pipeline RAG agentique sur site qui raisonne sur des contextes complets de patients et ancre chaque réponse dans des passages sources pour vérification par les cliniciens. Nous quantifions la lacune des métadonnées, retraçons les décisions architecturales qu'elle a façonnées, et évaluons l'extraction parallèlement à une étude rétrospective indépendante de registre de lymphome, dans laquelle des médecins nucléaires vérifient chaque valeur extraite par rapport à ses sources citées. Sur 7 326 jugements, les cliniciens ont accepté 96,5 % des extractions, avec un taux d'acceptation par type allant de 80 % à 99 %.
L'orchestration spatiale 3D précise dans la génération texte-vidéo reste un défi majeur, en particulier pour les scènes multi-objets où la disposition sémantique et la dynamique temporelle sont souvent entremêlées. Alors que les modèles existants conditionnés par la profondeur atteignent une bonne fidélité structurelle, ils nécessitent un guidage dense et précis par image, dont la création est laborieuse pour des événements dynamiques impliquant des objets déformables. Nous présentons LooseControlVideo, un framework qui permet un contrôle intuitif et expressif en utilisant des boîtes 3D orientées et éparses comme proxy de « blocking ». Cela permet aux utilisateurs de concevoir une disposition et une trajectoire de haut niveau tout en exploitant un modèle génératif vidéo pour générer des occlusions, des dynamiques et des interactions réalistes. Nous y parvenons en affinant un modèle de base Wan 2.2 sur un ensemble de données vidéo annoté avec DNOCS, un nouvel encodage pour la taille 3D, l'orientation et les occlusions ordonnées par profondeur. De plus, notre méthode permet un affinage localisé, comme l'ajustement d'une trajectoire de saut ou l'ajout d'une interaction, avec une perturbation minimale du contexte global de la scène. Des évaluations approfondies sur les benchmarks nuScenes, HO-3D et BEHAVE montrent que LooseControlVideo surpasse significativement les références existantes basées sur des boîtes 2D et le flux optique. Nos résultats indiquent une amélioration d'un facteur de 1,2 à 3 de l'Erreur de trajectoire ; une amélioration d'un facteur 2 de la Cohérence de mouvement rigide ; et une augmentation d'un facteur de 1,5 à 2 de la Précision d'occlusion par rapport aux modèles conditionnés par la disposition de pointe actuels, démontrant que les primitives 3D orientées fournissent un bon a priori géométrique pour la création vidéo complexe multi-agents.
Le développement actuel de jeux vidéo piloté par l'IA a réalisé des progrès substantiels dans la génération d'actifs, la conception du gameplay et le codage de jeux sur le Web. Cependant, l'ingénierie du code au niveau projet sur des moteurs de jeu professionnels reste largement inexplorée, en raison de l'absence d'ensembles de données à grande échelle et de méthodes d'évaluation déterministes. Nous présentons JamSet et JamBench, le premier ensemble de données et banc d'essai de code de jeu au niveau projet construit sur un moteur de jeu professionnel. Notre idée clé est que les compétitions Game Jam, des événements communautaires où les développeurs construisent des jeux complets sous des contraintes de temps strictes, produisent des milliers de projets open source adaptés à cet objectif. En nous appuyant sur le format textuel du moteur Godot et son mode d'exécution sans tête, nous concevons un pipeline de vérification déterministe allant de l'intégrité des fichiers à la collecte du comportement d'exécution, extrayant 8 133 projets vérifiés parmi plus de 240 000 dépôts. Parmi ceux-ci, 300 projets vérifiés manuellement forment JamBench ; le reste constitue JamSet. JamBench définit des tâches de génération guidée par thème et de complétion de code, évaluées via un pipeline combinant les taux de réussite de compilation, le Score de Complétude Structurelle (SCS) et le Score d'Alignement Comportemental (BAS). L'évaluation de 9 modèles de pointe révèle une falaise de capacité à mesure que l'échelle des projets augmente, les taux de réussite d'exécution passant de 80,4 % sur les petits projets à 5,7 % sur les grands (Tâche 2a). Les Agents de Code améliorent les taux de compilation mais n'apportent aucun gain en qualité comportementale à l'exécution, ce qui indique que le goulot d'étranglement réside dans la conception architecturale plutôt que dans la correction syntaxique. Les expériences valident JamSet en tant que données d'entraînement efficaces. Toutes les données et le code sont disponibles publiquement.
Les approches typiques d'apprentissage centré sur les objets vidéo (VOCL) utilisent des cadres basés sur des slots qui reposent sur des architectures encodeur-décodeur pilotées par reconstruction, où l'apprentissage est médié par deux cartes spatiales : les cartes d'attention de l'encodeur et les cartes d'objets du décodeur. Ces deux cartes distinctes présentant des propriétés différentes, une récente stratégie d'alignement dense a tenté de réconcilier cette divergence en imposant un accord sur l'ensemble des patches spatio-temporels via l'apprentissage contrastif. Cependant, cet alignement indiscriminé propage par inadvertance les faiblesses inhérentes à chaque module, telles que les prédictions bruyantes de l'encodeur et les limites floues du décodeur. De plus, le calcul de similarités denses sur toutes les paires entraîne un coût de calcul quadratique par rapport au nombre total de patches spatio-temporels, ce qui limite sévèrement la passage à l'échelle. Motivés par cela, nous proposons l'Apprentissage Synergique Sélectif (SSync). Au lieu d'un alignement exhaustif patch par patch, SSync empêche la propagation d'erreurs en distillant sélectivement uniquement les indicateurs les plus fiables : en exploitant l'encodeur strictement pour le raffinement des contours et le décodeur pour le débruitage intérieur. Ceci est réalisé via un pseudo-étiquetage à complexité linéaire, éliminant le besoin de comparaisons spatiales quadratiques. De plus, pour éviter le renforcement de biais architecturaux tels que la redondance des slots, nous introduisons une fusion transitive de pseudo-étiquettes qui consolide les slots chevauchants en fonction de la cohérence d'activation spatio-temporelle. Des études approfondies montrent que SSync améliore la qualité de décomposition et constitue un module polyvalent, prêt à l'emploi et enfichable à chaud, tout en faisant preuve d'une robustesse exceptionnelle aux configurations de slots. Le code est disponible sur github.com/wjun0830/SSync.
Il existe un écart significatif entre la théorie et la pratique en apprentissage profond. Les bornes d’erreur de généralisation et d’approximation sont souvent dérivées pour des modèles simplifiés ou sont trop lâches pour être informatives. Nombre d’entre elles reposent sur l’hypothèse de variété et sur la régularité géométrique telle que la dimension intrinsèque, la courbure et la portée. Les progrès nécessitent une compréhension de la géométrie des variétés de données et des benchmarks appropriés, pourtant les options existantes sont polarisées : des variétés analytiques avec une géométrie connue mais une applicabilité limitée, ou des ensembles de données réelles dont la géométrie n’est qu’approximativement estimable. Nous introduisons un cadre d’évaluation comparative pour étudier la géométrie des données. Nous réutilisons et étendons dSprites et COIL-20 avec des dimensions de transformation supplémentaires et un échantillonnage dense aligné sur les axes, et les associons à des estimateurs par différences finies qui retrouvent la courbure, la portée et le volume avec une précision proche de la vérité terrain dans un régime où les estimateurs généralistes sont peu fiables ou difficiles à déployer. Ce cadre est conçu comme un banc d’essai contrôlé, utile comme environnement de calibration pour les estimateurs géométriques et comme bac à sable pour sonder les hypothèses théoriques. Pour illustrer son utilisation, nous présentons deux études d’application, à savoir l’évaluation du comportement d’échelle des bornes de Genovese et al. et de Fefferman et al., et le suivi de la géométrie couche par couche d’un β-VAE, mettant en évidence le comportement des bornes actuelles et la valeur des benchmarks contrôlés pour guider et valider la théorie future. Une implémentation de référence est disponible à l’adresse https://github.com/koulakis/manifold-microscope.
Les grands modèles de langage (LLMs) ont considérablement fait progresser l'automatisation des tâches de génie logiciel. Un exemple emblématique est la génération de code, où un LLM produit du code dans un langage de programmation spécifié à partir d'une description en langage naturel. La plupart des recherches dans ce domaine se sont concentrées sur les langues à hautes ressources, comme Python ou Java, qui bénéficient de données d'entraînement abondantes. Un nombre plus restreint de travaux a exploré les langues à faibles ressources, sous-représentées dans les corpus d'entraînement. En revanche, les langues sans ressources, pour lesquelles les LLMs n'ont pratiquement vu aucune donnée d'entraînement, restent largement inétudiées. Ces langues émergent souvent dans l'industrie, où les organisations développent des langages propriétaires ou spécifiques à un domaine, non pris en charge par des outils commerciaux tels que GitHub Copilot. Cela entraîne la nécessité pour les entreprises de déployer leurs propres systèmes de recommandation de code internes. Afin d'étudier des solutions possibles dans ce contexte, nous construisons et publions trois bancs d'essai de génération de code pour les langues sans ressources, basés sur deux langages de programmation récemment proposés pour lesquels très peu de données d'entraînement sont disponibles. À l'aide de ces bancs d'essai, nous expérimentons plusieurs solutions pour enseigner aux LLMs les langues sans ressources, notamment des techniques basées sur les invites ainsi que du pré-entraînement et de l'ajustement fin exploitant les rares données disponibles. Bien que le pré-entraînement supplémentaire offre les plus grands gains de performance pour les langues sans ressources, l'appliquer directement à des modèles ajustés par instructions nuit à leur capacité à suivre les instructions. Pour y remédier, nous partons d'un modèle de base, le pré-entraînons davantage sur la langue cible, puis injectons des capacités de suivi d'instructions via un transfert par différence de poids à partir d'un modèle d'instructions. Une telle approche améliore significativement les capacités de génération de code dans les contextes sans ressources, permettant aux entreprises de déployer à moindre coût un modèle spécialisé dans les instructions sans avoir à supporter le coût computationnel de l'ajustement fin par instructions.
Les politiques d'ordonnancement dans les pipelines de service de reconnaissance automatique de la parole (ASR) à grande échelle jouent un rôle clé dans la détermination de la latence de bout en bout (E2E). Pourtant, les moteurs de service largement utilisés reposent sur un ordonnancement premier arrivé, premier servi (FCFS), qui ignore la variabilité de la durée des requêtes et entraîne un blocage de tête de file en cas de dérive de la charge de travail. Nous montrons que la durée audio constitue un indicateur précis du temps de traitement des tâches dans les modèles ASR tels que Whisper, et exploitons cette observation pour permettre un ordonnancement tenant compte de la durée. Nous intégrons deux algorithmes classiques, Shortest Job First (SJF) et Highest Response Ratio Next (HRRN), dans vLLM et les évaluons sous des charges de travail réalistes et sujettes à dérive. Sur LibriSpeech test-clean, par rapport à la référence, SJF réduit la latence E2E médiane jusqu'à 73 % en forte charge, mais augmente la latence de queue au 90e percentile jusqu'à 97 % en raison de la famine des requêtes longues. HRRN permet de gérer ce compromis : il réduit la latence E2E médiane jusqu'à 28 % tout en limitant la dégradation de la latence de queue à 24 % au maximum. Ces gains persistent en présence de dérive de la charge de travail, sans pénalité de débit et avec un surcoût d'ordonnancement inférieur à 0,1 ms par requête.
Les systèmes existants de programmation par l'exemple (PBE) reposent souvent sur des bancs d'essai simplifiés qui ne parviennent pas à capturer la grande complexité structurelle des expressions régulières réelles, telles que des imbrications plus profondes et une utilisation fréquente d'opérations d'union. Pour surmonter la baisse de performance qui en résulte, nous proposons ReSyn, un cadre de division et de conquête indépendant du synthétiseur, qui décompose un problème de synthèse complexe en sous-problèmes gérables. Nous introduisons également Set2Regex, un synthétiseur à paramètres efficaces qui capture l'invariance par permutation des exemples. Les résultats expérimentaux montrent que ReSyn améliore considérablement la précision de divers synthétiseurs, et sa combinaison avec Set2Regex établit un nouvel état de l'art sur un banc d'essai réel exigeant. Le code source complet, les jeux de données et les points de contrôle de modèles pré-entraînés sont accessibles au public à l'adresse https://github.com/mrseongminkim/ReSyn.