papers.description
L'évolution des modèles de langage de grande taille (LLM) en agents autonomes a élargi le champ de la génération de code par IA, passant d'une production localisée de code à une résolution de problèmes complexe, au niveau du dépôt et pilotée par l'exécution. Cependant, les benchmarks actuels évaluent principalement la logique du code dans des contextes statiques, négligeant les exigences dynamiques et de processus complet de l'ingénierie réelle, particulièrement dans le développement backend qui nécessite une configuration rigoureuse de l'environnement et un déploiement de services. Pour combler cette lacune, nous présentons ABC-Bench, un benchmark explicitement conçu pour évaluer le codage backend agentique dans un flux de travail réaliste et exécutable. En utilisant un pipeline automatisé et évolutif, nous avons sélectionné 224 tâches pratiques couvrant 8 langages et 19 frameworks à partir de dépôts open source. Contrairement aux évaluations précédentes, ABC-Bench exige que les agents gèrent l'ensemble du cycle de vie du développement, de l'exploration du dépôt à l'instanciation de services conteneurisés, et qu'ils réussissent des tests API externes de bout en bout. Notre évaluation approfondie révèle que même les modèles les plus avancés peinent à fournir des performances fiables sur ces tâches holistiques, mettant en lumière un écart substantiel entre les capacités actuelles des modèles et les exigences pratiques de l'ingénierie backend. Notre code est disponible à l'adresse https://github.com/OpenMOSS/ABC-Bench.
Les grands modèles de langage résolvent souvent les tâches de raisonnement complexe plus efficacement avec la pensée en chaîne (Chain-of-Thought, CoT), mais au prix de longues séquences de tokens à faible débit. En revanche, les humains raisonnent souvent de manière probabiliste en maintenant une distribution sur les prochaines étapes plausibles. Motivés par cette observation, nous proposons la Pensée Multiplexe, un mécanisme de raisonnement probabiliste stochastique qui, à chaque étape de réflexion, échantillonne K tokens candidats et agrège leurs plongements en un seul token multiplexe continu. Cette approche préserve l'a priori du plongement lexical et la dynamique d'échantillonnage de la génération discrète standard, tout en induisant une distribution de probabilité traitable sur les déploiements multiplexes. Par conséquent, les trajectoires multiplexes peuvent être optimisées directement par apprentissage par renforcement (RL) sur la politique. Fait important, la Pensée Multiplexe est auto-adaptative : lorsque le modèle est confiant, le token multiplexe est presque discret et se comporte comme la CoT standard ; lorsqu'il est incertain, il représente de manière compacte plusieurs étapes suivantes plausibles sans augmenter la longueur de la séquence. Sur divers benchmarks de raisonnement mathématique exigeants, la Pensée Multiplexe surpasse systématiquement les solides bases de référence en CoT discrète et RL, de Pass@1 à Pass@1024, tout en produisant des séquences plus courtes. Le code et les points de contrôle sont disponibles à l'adresse https://github.com/GMLR-Penn/Multiplex-Thinking.
Les modèles de segmentation fondamentale à invites comme SAM3 ont démontré d'excellentes capacités de généralisation grâce à des invites interactives et conceptuelles. Cependant, leur applicabilité directe à la segmentation d'images médicales reste limitée par d'importants décalages de domaine, l'absence de repères spatiaux privilégiés et la nécessité de raisonner sur des structures anatomiques et volumiques complexes. Nous présentons ici Medical SAM3, un modèle fondamental pour la segmentation médicale universelle pilotée par invite, obtenu en affinant complètement SAM3 sur de vastes ensembles de données d'imagerie médicale 2D et 3D hétérogènes, associés à des masques de segmentation et des invites textuelles. Par une analyse systématique de SAM3 standard, nous observons que ses performances se dégradent considérablement sur les données médicales, sa compétitivité apparente reposant largement sur de forts prérequis géométriques tels que des boîtes englobantes dérivées de la vérité terrain. Ces constatations motivent une adaptation complète du modèle au-delà du simple ingénierie des invites. En affinant les paramètres de SAM3 sur 33 ensembles de données couvrant 10 modalités d'imagerie médicale, Medical SAM3 acquiert des représentations robustes spécifiques au domaine tout en préservant la flexibilité pilotée par invite. Des expériences approfondies sur divers organes, modalités d'imagerie et dimensionalités démontrent des gains de performance constants et significatifs, particulièrement dans des scénarios difficiles caractérisés par une ambiguïté sémantique, une morphologie complexe et un contexte 3D à longue portée. Nos résultats établissent Medical SAM3 comme un modèle fondamental de segmentation universel guidé par texte pour l'imagerie médicale et soulignent l'importance d'une adaptation holistique du modèle pour obtenir une segmentation robuste pilotée par invite sous un décalage de domaine sévère. Le code et le modèle seront disponibles à l'adresse https://github.com/AIM-Research-Lab/Medical-SAM3.
L'évaluation précise de la confiance des modèles est essentielle pour le déploiement des grands modèles de langage (LLM) dans des domaines factuels critiques. Bien que la génération augmentée par retrieval (RAG) soit largement adoptée pour améliorer l'ancrage factuel, l'étalonnage de la confiance dans les configurations RAG reste mal compris. Nous menons une étude systématique sur quatre benchmarks, révélant que les LLM présentent de faibles performances d'étalonnage en raison du bruit dans les contextes récupérés. Plus précisément, des preuves contradictoires ou non pertinentes tendent à augmenter la fausse certitude du modèle, conduisant à une surconfiance prononcée. Pour y remédier, nous proposons les Règles NAACL (Noise-AwAre Confidence CaLibration Rules) pour établir un fondement méthodologique afin de résoudre la surconfiance en présence de bruit. Nous concevons ensuite NAACL, un cadre d'étalonnage prenant en compte le bruit, qui synthétise un apprentissage supervisé à partir d'environ 2 000 exemples HotpotQA guidés par ces règles. En réalisant un fine-tuning supervisé (SFT) avec ces données, NAACL dote les modèles d'une conscience intrinsèque du bruit sans dépendre de modèles enseignants plus performants. Les résultats empiriques montrent que NAACL apporte des gains substantiels, améliorant les scores ECE de 10,9 % en domaine interne et de 8,0 % hors domaine. En comblant l'écart entre le bruit de retrieval et l'étalonnage verbal, NAACL ouvre la voie à des LLM à la fois précis et épistémiquement fiables.
Les grands modèles de langage peuvent représenter diverses personnalités mais adoptent généralement par défaut une identité d'Assistant utile cultivée pendant l'après-entraînement. Nous étudions la structure de l'espace des personnalités des modèles en extrayant des directions d'activation correspondant à divers archétypes de personnages. Sur plusieurs modèles différents, nous constatons que la composante principale de cet espace de personnalités est un "Axe Assistant", qui capture la mesure dans laquelle un modèle fonctionne dans son mode Assistant par défaut. L'orientation vers la direction de l'Assistant renforce les comportements utiles et inoffensifs ; s'en éloigner augmente la tendance du modèle à s'identifier à d'autres entités. De plus, s'éloigner avec des valeurs plus extrêmes induit souvent un style d'expression mystique et théâtral. Nous constatons que cet axe est également présent dans les modèles pré-entraînés, où il favorise principalement des archétypes humains utiles comme les consultants et les coachs, et inhibe les archétypes spirituels. Mesurer les déviations le long de l'Axe Assistant permet de prédire la "dérive de personnalité", un phénomène où les modèles glissent vers des comportements nuisibles ou bizarres qui ne sont pas caractéristiques de leur personnalité typique. Nous constatons que la dérive de personnalité est souvent motivée par des conversations exigeant une méta-réflexion sur les processus du modèle ou mettant en scène des utilisateurs émotionnellement vulnérables. Nous montrons que restreindre les activations à une région fixe le long de l'Axe Assistant peut stabiliser le comportement du modèle dans ces scénarios - et également face aux jailbreaks adversariaux basés sur les personnalités. Nos résultats suggèrent que l'après-entraînement oriente les modèles vers une région particulière de l'espace des personnalités mais ne les y attache que faiblement, ce qui motive des travaux sur les stratégies d'entraînement et de pilotage qui ancrent plus profondément les modèles à une personnalité cohérente.
Le pilotage des modèles de langage de grande taille (LLM) par des interventions sur les activations est apparu comme une alternative légère au fine-tuning pour l'alignement et la personnalisation. Des travaux récents sur l'Optimisation de Préférences Bidirectionnelle (BiPO) montrent que des vecteurs de pilotage denses peuvent être appris directement à partir de données de préférences, suivant une approche de type Optimisation Directe des Préférences (DPO), permettant ainsi de contrôler la véracité, les hallucinations et les comportements liés à la sécurité. Cependant, les vecteurs de pilotage denses entremêlent souvent de multiples facteurs latents en raison de la multi-sémanticité des neurones, ce qui limite leur efficacité et leur stabilité dans des contextes nécessitant une granularité fine, comme l'alignement culturel, où des valeurs et comportements étroitement liés (par exemple, parmi les cultures du Moyen-Orient) doivent être distingués. Dans cet article, nous proposons Yet another Policy Optimization (YaPO), une méthode sans référence qui apprend des vecteurs de pilotage éparses dans l'espace latent d'un Autoencodeur Sparse (SAE). En optimisant les codes épars, YaPO produit des directions de pilotage désentrelacées, interprétables et efficaces. Empiriquement, nous montrons que YaPO converge plus rapidement, atteint de meilleures performances et présente une stabilité d'entraînement améliorée par rapport aux méthodes de référence utilisant des vecteurs denses. Au-delà de l'alignement culturel, YaPO se généralise à une gamme de comportements liés à l'alignement, incluant les hallucinations, la recherche de richesse, les jailbreaks et la recherche de pouvoir. Fait important, YaPO préserve les connaissances générales, sans dégradation mesurable sur MMLU. Globalement, nos résultats montrent que YaPO fournit une recette générale pour un alignement efficace, stable et à granularité fine des LLM, avec de larges applications pour la contrôlabilité et l'adaptation de domaine. Le code et les données associés sont disponibles publiquement à l'adresse https://github.com/MBZUAI-Paris/YaPO.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est très efficace pour améliorer le raisonnement des LLM, mais des preuves récentes montrent que des modèles comme Qwen 2.5 réalisent des gains significatifs même avec des récompenses fallacieuses ou incorrectes. Nous étudions ce phénomène et identifions un "Paradoxe de la Perplexité" : le RLVR fallacieux déclenche une divergence où la perplexité des tokens de réponse chute tandis que la cohérence du côté du prompt se dégrade, suggérant que le modèle contourne le raisonnement au profit de la mémorisation. En utilisant le Path Patching, le Logit Lens, l'analyse JSD et les équations différentielles neuronales, nous mettons à jour un circuit caché de type Ancrage-Adaptateur qui facilite ce raccourci. Nous localisons une Ancre Fonctionnelle dans les couches intermédiaires (L18-20) qui déclenche la récupération de solutions mémorisées, suivie d'Adaptateurs Structurels dans les couches supérieures (L21+) qui transforment les représentations pour accommoder le signal de raccourci. Enfin, nous démontrons que la mise à l'échelle de clés MLP spécifiques dans ce circuit permet un pilotage causal bidirectionnel - amplifiant ou supprimant artificiellement la performance induite par la contamination. Nos résultats fournissent une feuille de route mécanistique pour identifier et atténuer la contamination des données dans les modèles ajustés par RLVR. Le code est disponible à l'adresse https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.
L'animation d'images de personnages gagne une importance considérable dans divers domaines, portée par la demande de rendu multi-sujets robuste et flexible. Si les méthodes existantes excellent dans l'animation mono-personnage, elles peinent à gérer un nombre arbitraire de sujets, des types de personnages divers et un désalignement spatial entre l'image de référence et les poses d'animation. Nous attribuons ces limitations à une liaison spatiale excessivement rigide imposant un alignement pixel à pixel strict entre la pose et la référence, et à une incapacité à reassocier systématiquement le mouvement aux sujets cibles. Pour relever ces défis, nous proposons CoDance, un nouveau cadre Unbind-Rebind permettant d'animer un nombre arbitraire de sujets, des types variés et des configurations spatiales conditionnées par une séquence de poses unique et potentiellement désalignée. Concrètement, le module Unbind utilise un nouvel encodeur de décalage de pose pour rompre la liaison spatiale rigide entre la pose et la référence en introduisant des perturbations stochastiques sur les poses et leurs caractéristiques latentes, contraignant ainsi le modèle à apprendre une représentation motrice indépendante de la localisation. Pour garantir un contrôle précis et une association des sujets, nous concevons ensuite un module Rebind, exploitant un guidage sémantique via des invites textuelles et un guidage spatial via des masques de sujets pour diriger le mouvement appris vers les personnages ciblés. De plus, pour faciliter une évaluation exhaustive, nous introduisons un nouveau benchmark multi-sujets, CoDanceBench. Des expériences approfondies sur CoDanceBench et des jeux de données existants montrent que CoDance atteint des performances à l'état de l'art, faisant preuve d'une généralisation remarquable sur des sujets divers et des dispositions spatiales variées. Le code et les poids seront rendus publics.
Évaluer si les modèles de langage multimodaux de grande taille comprennent véritablement les articles scientifiques longs reste un défi : les métriques basées uniquement sur les réponses et les tests synthétiques de type "Aiguille dans une botte de foin" récompensent souvent la correspondance des réponses sans exiger une trace de raisonnement causal, liée à des preuves dans le document. Nous proposons le paradigme "Poisson dans l'Océan" (FITO), qui exige que les modèles construisent des chaînes de preuves explicites et multimodales au sein des documents scientifiques natifs. Pour opérationnaliser FITO, nous construisons SIN-Data, un corpus scientifique entrelacé qui préserve l'interpénétration native du texte et des figures. Par-dessus, nous construisons SIN-Bench avec quatre tâches progressives couvrant la découverte de preuves (SIN-Find), la vérification d'hypothèses (SIN-Verify), les questions-réponses ancrées (SIN-QA) et la synthèse ancrée sur des preuves (SIN-Summary). Nous introduisons en outre le principe "Pas de Preuve, Pas de Score", qui consiste à noter les prédictions uniquement lorsqu'elles sont ancrées à des éléments vérifiables et à diagnostiquer la qualité des preuves via le matching, la pertinence et la logique. Les expériences sur huit MLLM montrent que l'ancrage des preuves est le principal goulot d'étranglement : Gemini-3-pro obtient le meilleur score global moyen (0,573), tandis que GPT-5 atteint la plus haute précision de réponse pour SIN-QA (0,767) mais sous-performe sur les scores globaux alignés avec les preuves, exposant un écart entre la justesse et le support traçable.
PubMed-OCR est un corpus d'articles scientifiques axé sur la reconnaissance optique de caractères (OCR), dérivé des fichiers PDF en libre accès de PubMed Central. Chaque image de page est annotée avec Google Cloud Vision et publiée selon un schéma JSON compact comprenant les coordonnées des boîtes englobantes au niveau des mots, des lignes et des paragraphes. Le corpus couvre 209,5 milliers d'articles (1,5 million de pages ; environ 1,3 milliard de mots) et prend en charge la modélisation tenant compte de la mise en page, les questions-réponses ancrées sur les coordonnées et l'évaluation des pipelines dépendants de l'OCR. Nous analysons les caractéristiques du corpus (telles que la couverture des revues et les éléments de mise en page détectés) et discutons des limites, incluant la dépendance à un moteur OCR unique et la reconstruction heuristique des lignes. Nous publions les données et le schéma pour faciliter la recherche en aval et encourageons les extensions.
Pour enseigner aux robots des tâches de manipulation complexes, il est désormais courant d'affiner un modèle vision-langage-action (VLA) pré-entraîné sur des données spécifiques à une tâche. Cependant, cette approche modifiant les représentations existantes, elle est inadaptée à un fonctionnement à long terme dans le monde réel, où les robots doivent s'adapter continuellement à de nouvelles tâches et environnements tout en conservant les connaissances déjà acquises. Les méthodes existantes d'apprentissage continu en robotique nécessitent généralement de stocker les données antérieures (exemplaires), peinent à gérer de longues séquences de tâches, ou reposent sur des identifiants de tâche pour le déploiement. Pour surmonter ces limitations, nous proposons CLARE, un cadre général et efficace en paramètres pour l'apprentissage continu sans exemplaires avec les VLA. CLARE intègre des adaptateurs modulaires légers dans certaines couches feedforward et étend le modèle de manière autonome uniquement là où c'est nécessaire lors de l'apprentissage d'une nouvelle tâche, guidé par la similarité des caractéristiques par couche. Pendant le déploiement, un mécanisme de routage basé sur un autoencodeur active dynamiquement les adaptateurs les plus pertinents sans nécessiter d'étiquettes de tâche. Grâce à des expériences approfondies sur le benchmark LIBERO, nous montrons que CLARE atteint des performances élevées sur les nouvelles tâches sans oubli catastrophique des tâches antérieures, surpassant significativement même les méthodes basées sur des exemplaires. Le code et les données sont disponibles à l'adresse https://tum-lsy.github.io/clare.