papers.description
Les grands modèles de langage (LLM) produisent des sorties fluides et complexes mais peinent souvent à reconnaître leurs propres erreurs et hallucinations. Les approches existantes reposent généralement sur des évaluateurs externes, la cohérence multi-échantillons ou l'auto-critique textuelle, ce qui entraîne des coûts de calcul supplémentaires ou une corrélation faible avec la justesse réelle. Nous posons la question : les LLM peuvent-ils prédire leurs propres échecs en inspectant leurs états internes durant l'inférence ? Nous présentons Gnosis, un mécanisme léger d'auto-conscience qui permet à des LLM figés d'effectuer une auto-vérification intrinsèque en décodant les signaux issus des états cachés et des motifs d'attention. Gnosis observe passivement les traces internes, les compresse en descripteurs à budget fixe, et prédit la justesse avec un coût d'inférence négligeable, n'ajoutant qu'environ 5 millions de paramètres et fonctionnant indépendamment de la longueur des séquences. Sur des benchmarks de raisonnement mathématique, de question-réponse en domaine ouvert et de connaissances académiques, et sur des architectures figées allant de 1,7 à 20 milliards de paramètres, Gnosis surpasse constamment les solides bases de référence internes et les grands évaluateurs externes tant en précision qu'en calibration. De plus, il généralise en zero-shot à des générations partielles, permettant une détection précoce des trajectoires d'échec et un contrôle adaptatif au calcul. Ces résultats montrent que des indicateurs fiables de justesse sont intrinsèques au processus de génération et peuvent être extraits efficacement sans supervision externe.
Nous présentons NextFlow, un transformeur autoregressif décodeur unifié entraîné sur 6 000 milliards de jetons discrets texte-image entrelacés. En exploitant une représentation visuelle unifiée au sein d'une architecture autoregressive unifiée, NextFlow active nativement des capacités de compréhension et de génération multimodales, déverrouillant des capacités d'édition d'image, de génération de contenu entrelacé et de vidéo. Motivés par la nature distincte des modalités - où le texte est strictement séquentiel et les images intrinsèquement hiérarchiques - nous conservons la prédiction du jeton suivant pour le texte mais adoptons la prédiction d'échelle suivante pour la génération visuelle. Cela s'écarte des méthodes traditionnelles de balayage raster, permettant la génération d'images 1024x1024 en seulement 5 secondes - des ordres de grandeur plus rapide que les modèles AR comparables. Nous abordons les instabilités de la génération multi-échelle grâce à une méthode d'entraînement robuste. De plus, nous introduisons une stratégie de réglage de préfixe pour l'apprentissage par renforcement. Les expériences démontrent que NextFlow atteint des performances à la pointe de l'état de l'art parmi les modèles unifiés et rivalise avec les modèles de référence spécialisés de type diffusion en qualité visuelle.
Ce rapport technique présente K-EXAONE, un modèle linguistique multilingue à grande échelle développé par LG AI Research. K-EXAONE est construit sur une architecture de type « mixture of experts » (mélange d'experts) comptant 236 milliards de paramètres au total, dont 23 milliards sont activés lors de l'inférence. Il prend en charge une fenêtre de contexte de 256 000 tokens et couvre six langues : le coréen, l'anglais, l'espagnol, l'allemand, le japonais et le vietnamien. Nous évaluons K-EXAONE sur une suite complète de benchmarks couvrant les capacités de raisonnement, agentielles, générales, coréennes et multilingues. Au cours de ces évaluations, K-EXAONE démontre des performances comparables à celles des modèles open-weight de taille similaire. Conçu pour faire progresser l'IA afin d'améliorer la vie, K-EXAONE se positionne comme un puissant modèle de fondation propriétaire pour un large éventail d'applications industrielles et de recherche.
Le remplacement de visage vidéo (VFS) nécessite l'injection transparente d'une identité source dans une vidéo cible tout en préservant méticuleusement la pose, l'expression, l'éclairage, l'arrière-plan et les informations dynamiques originaux. Les méthodes existantes peinent à maintenir la similarité d'identité et la préservation des attributs tout en conservant la cohérence temporelle. Pour relever ce défi, nous proposons un cadre complet permettant de transférer de manière transparente la supériorité du remplacement de visage sur image (IFS) au domaine vidéo. Nous introduisons d'abord une nouvelle pipeline de données SyncID-Pipe qui pré-entraîne un synthétiseur vidéo ancré sur l'identité et le combine avec des modèles IFS pour construire des quadruplets d'ID bidirectionnels permettant une supervision explicite. Sur la base de données appariées, nous proposons le premier cadre DreamID-V basé sur un Transformer à Diffusion, employant un module central de Conditionnement Sensible aux Modalités pour injecter de manière discriminante des conditions multi-modèles. Parallèlement, nous proposons un mécanisme de Curriculum Synthétique-vers-Réel et une stratégie d'Apprentissage par Renforcement de la Cohérence d'Identité pour améliorer le réalisme visuel et la cohérence identitaire dans des scénarios difficiles. Pour remédier au problème des benchmarks limités, nous introduisons IDBench-V, un benchmark complet couvrant des scènes diverses. Des expériences approfondies démontrent que DreamID-V surpasse les méthodes state-of-the-art et présente en outre une polyvalence exceptionnelle, pouvant être adapté de manière transparente à diverses tâches liées au remplacement.
La génération visuelle est dominée par trois paradigmes : les modèles Autoregressifs (AR), par diffusion et Visual Autoregressif (VAR). Contrairement aux AR et à la diffusion, les VAR opèrent sur des structures d'entrée hétérogènes à travers leurs étapes de génération, ce qui crée de sévères conflits de politiques asynchrones. Ce problème devient particulièrement aigu dans les scénarios d'apprentissage par renforcement (RL), entraînant un apprentissage instable et un alignement sous-optimal. Pour résoudre ceci, nous proposons un nouveau cadre pour améliorer l'Optimisation de Politique Relative de Groupe (GRPO) en gérant explicitement ces conflits. Notre méthode intègre trois composantes synergiques : 1) une récompense intermédiaire stabilisatrice pour guider la génération aux stades précoces ; 2) un schéma de repondération dynamique des pas de temps pour une attribution de crédit précise ; et 3) un nouvel algorithme de propagation de masque, dérivé des principes du Reward Feedback Learning (ReFL), conçu pour isoler les effets d'optimisation à la fois spatialement et temporellement. Notre approche démontre des améliorations significatives de la qualité des échantillons et de l'alignement aux objectifs par rapport à la baseline GRPO standard, permettant une optimisation robuste et efficace pour les modèles VAR.
Le réglage fin des modèles de diffusion par apprentissage par renforcement (RL) en ligne a démontré un grand potentiel pour améliorer l'alignement texte-image. Cependant, la spécification précise d'un objectif de vérité terrain pour les tâches visuelles restant difficile, les modèles sont souvent optimisés à l'aide d'une récompense proxy qui ne capture qu'en partie le véritable objectif. Cette inadéquation conduit souvent à du détournement de récompense (reward hacking), où les scores proxy augmentent tandis que la qualité réelle de l'image se dégrade et que la diversité des générations s'effondre. Si les solutions courantes ajoutent une régularisation par rapport à la politique de référence pour prévenir ce détournement, elles compromettent l'efficacité de l'échantillonnage et entravent l'exploration de nouvelles régions à haute récompense, la politique de référence étant généralement sous-optimale. Pour répondre aux exigences concurrentes d'efficacité de l'échantillonnage, d'exploration efficace et d'atténuation du détournement de récompense, nous proposons GARDO (Gated and Adaptive Regularization with Diversity-aware Optimization), un cadre versatile compatible avec divers algorithmes de RL. Notre idée clé est que la régularisation n'a pas besoin d'être appliquée universellement ; il est au contraire très efficace de pénaliser sélectivement un sous-ensemble d'échantillons présentant une forte incertitude. Pour relever le défi de l'exploration, GARDO introduit un mécanisme de régularisation adaptative dans lequel le modèle de référence est mis à jour périodiquement pour correspondre aux capacités de la politique en ligne, garantissant ainsi une cible de régularisation pertinente. Pour résoudre le problème de l'effondrement des modes (mode collapse) en RL, GARDO amplifie les récompenses pour les échantillons de haute qualité qui présentent également une grande diversité, encourageant ainsi la couverture des modes sans déstabiliser le processus d'optimisation. Des expériences approfondies, menées sur diverses récompenses proxy et métriques de validation non vues, montrent systématiquement que GARDO atténue le détournement de récompense et améliore la diversité des générations sans sacrifier l'efficacité de l'échantillonnage ni l'exploration, soulignant ainsi son efficacité et sa robustesse.
Nous présentons VINO, un générateur visuel unifié qui réalise la génération et l'édition d'images et de vidéos au sein d'un même cadre. Plutôt que de s'appuyer sur des modèles spécifiques à chaque tâche ou des modules indépendants pour chaque modalité, VINO utilise une architecture de diffusion partagée qui se conditionne sur du texte, des images et des vidéos, permettant ainsi une large gamme de tâches de création et d'édition visuelles avec un seul modèle. Plus précisément, VINO couple un modèle vision-langage (VLM) avec un Transformeur de Diffusion Multimodal (MMDiT), où les entrées multimodales sont encodées sous forme de jetons de conditionnement entrelacés, puis utilisées pour guider le processus de diffusion. Cette conception prend en charge l'ancrage multi-référence, le suivi d'instructions longues et la préservation cohérente de l'identité sur du contenu statique et dynamique, tout en évitant les composants architecturaux spécifiques à une modalité. Pour entraîner un tel système unifié, nous introduisons un pipeline d'entraînement multi-étapes qui étend progressivement un modèle de base de génération vidéo en un générateur unifié et multi-tâche capable de traiter des entrées et sorties images et vidéos. Sur divers benchmarks de génération et d'édition, VINO démontre une forte qualité visuelle, un suivi fidèle des instructions, une meilleure préservation des références et attributs, et des éditions multi-identités plus contrôlables. Nos résultats mettent en lumière une voie pratique vers une génération visuelle unifiée et évolutive, et la promesse du calcul entrelacé en contexte comme fondement pour la création visuelle générale.
La grande vision de permettre une compréhension géométrique visuelle 3D persistante et à grande échelle est entravée par les exigences inconciliables de l'évolutivité et de la stabilité à long terme. Si des modèles hors ligne comme VGGT atteignent des capacités géométriques impressionnantes, leur nature par lots les rend inadaptés aux systèmes en temps réel. Les architectures de streaming, bien que conçues pour un fonctionnement en direct, se sont avérées inadéquates. Les méthodes existantes échouent soit à prendre en charge des entrées véritablement à horizon infini, soit souffrent d'une dérive catastrophique sur de longues séquences. Nous brisons ce dilemme de longue date avec InfiniteVGGT, un transformeur de géométrie visuelle causal qui opérationnalise le concept de mémoire glissante grâce à un cache KV borné mais adaptatif et perpétuellement expressif. En capitalisant sur cela, nous concevons une stratégie d'élagage, agnostique à l'attention et sans apprentissage, qui supprime intelligemment les informations obsolètes, faisant ainsi « avancer » la mémoire à chaque nouvelle image. Entièrement compatible avec FlashAttention, InfiniteVGGT lève enfin le compromis, permettant un streaming à horizon infini tout en surpassant les méthodes de streaming existantes en stabilité à long terme. Le test ultime pour un tel système est sa performance sur un horizon véritablement infini, une capacité qui a été impossible à valider rigoureusement en raison de l'absence de benchmarks continus extrêmement longs. Pour combler cette lacune critique, nous présentons le benchmark Long3D, qui permet pour la première fois une évaluation rigoureuse de l'estimation géométrique 3D continue sur des séquences d'environ 10 000 images. Cela fournit la plateforme d'évaluation définitive pour la recherche future sur la compréhension géométrique 3D à long terme. Le code est disponible à l'adresse : https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
Nous étudions la capacité des grands modèles de langage (LLM) à traiter des invites de longueur arbitraire sous l'angle de la mise à l'échelle lors de l'inférence. Nous proposons les modèles de langage récursifs (RLM), une stratégie d'inférence générale qui considère les longues invites comme faisant partie d'un environnement externe et permet au LLM d'examiner, de décomposer et de s'appeler récursivement sur des fragments de l'invite de manière programmatique. Nous constatons que les RLM traitent avec succès des entrées jusqu'à deux ordres de grandeur au-delà des fenêtres de contexte des modèles et que, même pour des invites plus courtes, ils surpassent considérablement la qualité des LLM de base et des échafaudages courants pour les longs contextes sur quatre tâches variées, tout en ayant un coût par requête comparable (ou inférieur).
Ce travail présente Falcon-H1R, un modèle de 7 milliards de paramètres optimisé pour le raisonnement, qui établit la faisabilité d'atteindre des performances compétitives en raisonnement avec des petits modèles de langage (SLM). Falcon-H1R se distingue par son efficacité paramétrique, égalant ou surpassant de manière constante les modèles de raisonnement à l'état de l'art (SOTA) qui sont 2 à 7 fois plus grands sur une variété de benchmarks intensifs en raisonnement. Ces résultats soulignent l'importance d'une curation minutieuse des données et de stratégies d'entraînement ciblées (via un SFT efficace et une mise à l'échelle par RL) pour obtenir des gains de performance significatifs sans augmenter la taille du modèle. De plus, Falcon-H1R repousse les limites 3D de l'efficacité du raisonnement en combinant une inférence plus rapide (grâce à sa conception architecturale hybride-parallèle), une efficacité des tokens et une plus grande précision. Cette combinaison unique fait de Falcon-H1R-7B une colonne vertébrale pratique pour la mise à l'échelle de systèmes de raisonnement avancés, en particulier dans les scénarios nécessitant une génération extensive de chaînes de pensée (chain-of-thoughts) et une mise à l'échelle parallèle au moment du test. En tirant parti de l'approche DeepConf récemment introduite, Falcon-H1R atteint une efficacité de mise à l'échelle au moment du test à la pointe de l'état de l'art, offrant des améliorations substantielles en termes de précision et de coût computationnel. Par conséquent, Falcon-H1R démontre que des modèles compacts, grâce à un entraînement ciblé et à des choix architecturaux appropriés, peuvent offrir des performances de raisonnement robustes et évolutives.
Nous présentons Talk2Move, un cadre de diffusion basé sur l'apprentissage par renforcement (RL) pour la transformation spatiale d'objets dans des scènes, guidée par instructions textuelles. La manipulation spatiale d'objets dans une scène via le langage naturel constitue un défi pour les systèmes de génération multimodaux. Si les méthodes de manipulation basées sur le texte existantes peuvent ajuster l'apparence ou le style, elles peinent à réaliser des transformations géométriques au niveau de l'objet - telles que la translation, la rotation ou le redimensionnement d'objets - en raison de la rareté de la supervision par paires et des limites de l'optimisation au niveau des pixels. Talk2Move utilise l'Optimisation de Politique Relative par Groupe (GRPO) pour explorer des actions géométriques via des déploiements diversifiés générés à partir d'images d'entrée et de variations textuelles légères, éliminant ainsi le besoin de données appariées coûteuses. Un modèle guidé par une récompense spatiale aligne les transformations géométriques avec la description linguistique, tandis que l'évaluation d'étape hors politique et l'échantillonnage actif d'étapes améliorent l'efficacité de l'apprentissage en se concentrant sur les étapes de transformation informatives. De plus, nous concevons des récompenses spatiales centrées sur l'objet qui évaluent directement les comportements de déplacement, de rotation et de mise à l'échelle, permettant des transformations interprétables et cohérentes. Les expériences sur des benchmarks organisés démontrent que Talk2Move réalise des transformations d'objets précises, cohérentes et sémantiquement fidèles, surpassant les approches d'édition guidée par le texte existantes à la fois en précision spatiale et en cohérence scénique.
Bien que l'estimation de la confiance soit une voie prometteuse pour atténuer les hallucinations dans les grands modèles de langage (LLM), les recherches actuelles se concentrent principalement sur des contextes à tour unique. La dynamique de la confiance du modèle dans les conversations multi-tours, où le contexte s'accumule et l'ambiguïté est progressivement résolue, reste largement inexplorée. Une estimation fiable de la confiance dans les contextes multi-tours est cruciale pour de nombreuses applications en aval, telles que les agents autonomes et les systèmes à boucle humaine. Ce travail présente la première étude systématique de l'estimation de la confiance dans les interactions multi-tours, en établissant un cadre d'évaluation formel fondé sur deux desiderata clés : l'étalonnage par tour et la monotonie de la confiance à mesure que davantage d'informations deviennent disponibles. Pour faciliter cela, nous introduisons de nouvelles métriques, incluant une Erreur d'Étalonnage Attendue normalisée par la longueur (InfoECE), et un nouveau paradigme "Devinette Guidée" pour générer des ensembles de données d'évaluation contrôlés. Nos expériences révèlent que les techniques de confiance couramment utilisées peinent à assurer l'étalonnage et la monotonie dans les dialogues multi-tours. Nous proposons P(Suffisant), une sonde basée sur les logits qui obtient des performances relativement meilleures, bien que le problème soit loin d'être résolu. Notre travail fournit une méthodologie fondamentale pour développer des agents conversationnels plus fiables et dignes de confiance.
Bien que les LLM constituent des modèles d'embedding puissants, leur application dans des contextes sans entraînement se heurte à deux défis structurels : l'attention causale empêche les premiers tokens d'accéder au contexte suivant, et l'objectif de prédiction du token suivant biaise les représentations vers la génération plutôt que la compression sémantique. Pour résoudre ces limitations, nous proposons KV-Embedding, un cadre qui active le pouvoir de représentation latent des LLM figés. Notre méthode s'appuie sur l'observation que les états clé-valeur (KV) du dernier token à chaque couche codent une vue compressée de la séquence. En réacheminant ces états comme préfixe ajouté, nous permettons à tous les tokens d'accéder au contexte séquentiel en une seule passe avant. Pour garantir une applicabilité indépendante du modèle, nous introduisons une stratégie automatique de sélection de couche basée sur la dimension intrinsèque. Les évaluations sur MTEB avec les modèles Qwen, Mistral et Llama montrent que KV-Embedding surpasse les méthodes de référence sans entraînement jusqu'à 10%, tout en maintenant des performances robustes sur des séquences allant jusqu'à 4 096 tokens. Ces résultats démontrent que la manipulation des états internes offre une alternative efficace à la modification des entrées, et nous espérons que ces travaux encourageront l'exploration des mécanismes internes des LLM pour l'apprentissage de représentations.
Nous présentons CPPO, une méthode d'Optimisation de Politique par Perception Contrastive pour le réglage fin des modèles vision-langage (VLM). Si l'apprentissage par renforcement (RL) a fait progresser le raisonnement dans les modèles de langage, son extension au raisonnement multimodal nécessite d'améliorer à la fois les aspects de perception et de raisonnement. Les travaux antérieurs abordent ce défi principalement avec des récompenses de perception explicites, mais dissocier les tokens de perception des tokens de raisonnement est difficile, ce qui nécessite des LLM supplémentaires, des données de vérité terrain, une séparation forcée de la perception et du raisonnement par le modèle de politique, ou l'application indiscriminée des récompenses à tous les tokens de sortie. CPPO résout ce problème en détectant les tokens de perception via les changements d'entropie dans les sorties du modèle sous des images d'entrée perturbées. CPPO étend ensuite la fonction objectif du RL avec une Perte de Perception Contrastive (CPL) qui impose la cohérence sous des perturbations préservant l'information et la sensibilité sous des perturbations supprimant l'information. Les expériences montrent que CPPO surpasse les méthodes précédentes de récompense de la perception, tout en évitant les modèles supplémentaires, rendant l'entraînement plus efficace et évolutif.
La reconstruction de maillages humains à partir d'images multi-vues se heurte à un défi fondamental : les jeux de données réels contiennent des annotations au sol imparfaites qui biaisent l'entraînement des modèles, tandis que les données synthétiques avec supervision précise souffrent d'un écart de domaine. Dans cet article, nous proposons DiffProxy, une nouvelle architecture qui génère des proxys humains multi-vues cohérents pour la reconstruction de maillages. L'élément central de DiffProxy est l'exploitation de préalables génératifs basés sur la diffusion pour combler le fossé entre l'entraînement synthétique et la généralisation au monde réel. Ses innovations clés incluent : (1) un mécanisme multi-conditionnel pour générer des proxys humains cohérents multi-vues et alignés au pixel ; (2) un module de raffinement manuel incorporant des invites visuelles flexibles pour améliorer les détails locaux ; et (3) une méthode de mise à l'échelle en temps de test sensible à l'incertitude qui accroît la robustesse face aux cas difficiles lors de l'optimisation. Ces conceptions garantissent que le processus de reconstruction de maillages bénéficie efficacement de la vérité terrain synthétique précise et des avantages génératifs du pipeline basé sur la diffusion. Entièrement entraîné sur des données synthétiques, DiffProxy obtient des performances state-of-the-art sur cinq benchmarks du monde réel, démontrant une forte généralisation zero-shot, particulièrement dans les scénarios difficiles avec occlusions et vues partielles. Page du projet : https://wrk226.github.io/DiffProxy.html
Alors que les modèles de langage de grande taille sont déployés dans des applications d'entreprise à haut risque, de la santé à la finance, garantir le respect des politiques spécifiques aux organisations est devenu essentiel. Pourtant, les évaluations de sécurité existantes se concentrent exclusivement sur les préjudices universels. Nous présentons COMPASS (Company/Organization Policy Alignment Assessment), le premier cadre systématique pour évaluer si les LLM se conforment aux politiques organisationnelles de listes d'autorisation et d'interdiction. Nous appliquons COMPASS à huit scénarios industriels variés, générant et validant 5 920 requêtes qui testent à la fois la conformité routinière et la robustesse antagoniste via des cas limites stratégiquement conçus. En évaluant sept modèles de pointe, nous mettons en lumière une asymétrie fondamentale : les modèles traitent de manière fiable les demandes légitimes (>95% de précision) mais échouent de façon catastrophique à faire respecter les interdictions, refusant seulement 13 à 40% des violations adverses des listes d'interdiction. Ces résultats démontrent que les LLM actuels manquent de la robustesse nécessaire pour les déploiements critiques en matière de politiques, établissant COMPASS comme un cadre d'évaluation essentiel pour la sécurité organisationnelle de l'IA.
La segmentation sémantique semi-supervisée des images de télédétection (TD) offre une solution prometteuse pour alléger la charge des annotations exhaustives, mais elle se heurte fondamentalement à la dérive des pseudo-étiquettes, un phénomène où le biais de confirmation entraîne une accumulation d'erreurs pendant l'entraînement. Dans ce travail, nous proposons Co2S, un cadre de segmentation TD semi-supervisé stable qui fusionne de manière synergique des connaissances a priori provenant de modèles vision-langage et de modèles auto-supervisés. Plus précisément, nous construisons une architecture hétérogène à double étudiant comprenant deux modèles de fondation visuelle distincts basés sur ViT, initialisés avec CLIP et DINOv3 pré-entraînés, pour atténuer l'accumulation d'erreurs et la dérive des pseudo-étiquettes. Pour incorporer efficacement ces connaissances a priori distinctes, un mécanisme de co-guidage sémantique explicite-implicite est introduit ; il utilise des embeddings textuels et des requêtes apprenables pour fournir respectivement un guidage explicite et implicite au niveau des classes, améliorant ainsi conjointement la cohérence sémantique. De plus, une stratégie de fusion collaborative des caractéristiques globales-locales est développée pour fusionner efficacement l'information contextuelle globale capturée par CLIP avec les détails locaux produits par DINOv3, permettant au modèle de générer des résultats de segmentation très précis. Des expériences approfondies sur six jeux de données populaires démontrent la supériorité de la méthode proposée, qui obtient constamment des performances leaders across divers protocoles de partition et scénarios variés. La page du projet est disponible à l'adresse https://xavierjiezou.github.io/Co2S/.
Nous présentons SWE-Lego, une méthode de fine-tuning supervisé (SFT) conçue pour atteindre des performances de pointe dans la résolution de problèmes de génie logiciel (SWE). Contrairement aux méthodes prédominantes qui reposent sur des paradigmes d'entraînement complexes (par exemple, le mid-training, le SFT, l'apprentissage par renforcement et leurs combinaisons), nous explorons comment repousser les limites d'une approche SFT légère exclusive pour les tâches SWE. SWE-Lego comprend trois blocs de construction fondamentaux, dont les principaux résultats sont résumés comme suit : 1) le jeu de données SWE-Lego, une collection de 32k instances de tâches de haute qualité et 18k trajectoires validées, combinant des données réelles et synthétiques pour se compléter mutuellement en qualité et en quantité ; 2) une procédure SFT raffinée avec masquage des erreurs et un curriculum basé sur la difficulté, qui améliore démontrablement la qualité des actions et les performances globales. Les résultats empiriques montrent qu'avec ces deux seuls blocs de construction, le SFT peut hisser les modèles SWE-Lego à des performances de pointe parmi les modèles open-source de taille comparable sur SWE-bench Verified : SWE-Lego-Qwen3-8B atteint 42,2 %, et SWE-Lego-Qwen3-32B atteint 52,6 %. 3) Nous évaluons et améliorons ensuite le scaling au moment du test (TTS) construit sur la base SFT. Sur la base d'un vérificateur bien entraîné, les modèles SWE-Lego peuvent être considérablement boostés – par exemple, de 42,2 % à 49,6 % et de 52,6 % à 58,8 % sous TTS@16 pour les modèles 8B et 32B, respectivement.
L'évaluation de la nouveauté est cruciale mais difficile dans l'examen par les pairs, car les évaluateurs doivent juger les soumissions par rapport à une littérature vaste et en évolution rapide. Ce rapport présente OpenNovelty, un système agentique alimenté par un LLM pour une analyse transparente et fondée sur des preuves de la nouveauté. Le système fonctionne en quatre phases : (1) l'extraction de la tâche principale et des revendications de contribution pour générer des requêtes de recherche ; (2) la récupération des travaux antérieurs pertinents via un moteur de recherche sémantique basé sur les requêtes extraites ; (3) la construction d'une taxonomie hiérarchique des travaux liés à la tâche principale et la réalisation de comparaisons en texte intégral au niveau des contributions pour chaque revendication ; et (4) la synthèse de toutes les analyses en un rapport de nouveauté structuré avec des citations explicites et des extraits de preuves. Contrairement aux approches naïves basées sur les LLM, OpenNovelty ancre toutes les évaluations dans des articles réels récupérés, garantissant des jugements vérifiables. Nous déployons notre système sur plus de 500 soumissions à l'ICLR 2026, tous les rapports étant disponibles publiquement sur notre site web, et une analyse préliminaire suggère qu'il peut identifier les travaux antérieurs pertinents, y compris des articles étroitement liés que les auteurs pourraient négliger. OpenNovelty vise à doter la communauté scientifique d'un outil évolutif qui promeut un examen par les pairs équitable, cohérent et étayé par des preuves.
Nous introduisons la matérionomique comme un cadre génératif reliant les structures hiérarchiques de la matière à la logique compositionnelle de la musique. Des protéines aux toiles d'araignée en passant par la dynamique des flammes, les principes vibrationnels et architecturaux réapparaissent sous forme de hiérarchies tonales, de progressions harmoniques et de formes musicales à longue portée. En utilisant des correspondances réversibles, des spectres moléculaires aux sons musicaux et des réseaux tridimensionnels à des instruments jouables, nous montrons comment le son fonctionne comme une sonde scientifique, une inversion épistémique où l'écoute devient un mode de vision et la composition musicale un plan directeur pour la matière. Ces correspondances exhument le temps profond : des motifs issus de vibrations moléculaires femtosecondes ou d'histoires évolutives milliardaires deviennent audibles. Nous postulons que la nouveauté en science et en art émerge lorsque les contraintes ne peuvent être satisfaites dans les degrés de liberté existants, forçant l'expansion de l'espace des configurations viables. L'imperfection sélective fournit le mécanisme rétablissant l'équilibre entre cohérence et adaptabilité. Un soutien quantitatif provient de l'énumération exhaustive des 2^12 gammes musicales, révélant que les systèmes culturellement significatifs se regroupent dans un corridor à entropie et défauts intermédiaires, parallèle direct de l'optimum de Hall-Petch où des densités de défauts intermédiaires maximisent la résistance des matériaux. Itérer ces correspondances crée des collisions productives entre la créativité humaine et la physique, générant de nouvelles informations lorsque les structures musicales rencontrent des contraintes évolutives. Nous montrons comment des modèles d'IA essaimistes composent une musique présentant des signatures structurelles humaines telles que la connectivité petit monde, l'intégration modulaire et la cohérence à longue portée, suggérant une voie au-delà de l'interpolation vers l'invention. Nous montrons que la science et l'art sont des actes génératifs de construction de mondes sous contrainte, avec la vibration comme grammaire partagée organisant la structure à travers les échelles.
La segmentation d'images médicales par annotateurs multiples est un problème de recherche important, mais nécessite des ensembles de données annotées dont la collecte est coûteuse. L'imagerie dermatoscopique des lésions cutanées permet aux experts humains et aux systèmes d'IA d'observer des structures morphologiques qui ne seraient pas discernables sur des photographies cliniques classiques. Cependant, il n'existe actuellement aucun jeu de données public à grande échelle de segmentation de lésions cutanées (SLC) multi-annotateurs avec des étiquettes d'annotateurs pour l'imagerie dermatoscopique. Nous présentons ISIC MultiAnnot++, un vaste jeu de données public multi-annotateurs pour la segmentation de lésions cutanées à partir d'images de l'Archive ISIC. Le jeu de données final contient 17 684 masques de segmentation couvrant 14 967 images dermatoscopiques, dont 2 394 images possèdent entre 2 et 5 segmentations par image, ce qui en fait le plus grand jeu de données SLC public disponible. De plus, des métadonnées concernant la segmentation, incluant le niveau de compétence des annotateurs et l'outil de segmentation utilisé, sont incluses, permettant des recherches sur des sujets tels que la modélisation des préférences spécifiques aux annotateurs pour la segmentation et l'analyse des métadonnées des annotateurs. Nous fournissons une analyse des caractéristiques de ce jeu de données, des partitions de données organisées et des masques de segmentation par consensus.
Les modèles de fondation géospatiaux (GFM) ont démontré leur efficacité dans diverses applications en aval, incluant la segmentation sémantique, la classification et les tâches de régression. Cependant, dans le cas de la cartographie des inondations utilisant le jeu de données Sen1Flood11 comme tâche en aval, les GFM peinent à surpasser l'U-Net de référence, ce qui souligne la limitation du modèle à capturer des nuances locales critiques. Pour résoudre ce problème, nous présentons le Prithvi-Complementary Adaptive Fusion Encoder (CAFE), qui intègre l'encodeur pré-entraîné du GFM Prithvi avec une branche résiduelle CNN parallèle améliorée par des modules d'attention convolutionnelle (CAM). Prithvi-CAFE permet un réglage fin rapide et efficace via des adaptateurs dans Prithvi et effectue une fusion multi-échelle et multi-niveau avec les caractéristiques CNN, capturant ainsi les détails locaux essentiels tout en préservant les dépendances à longue portée. Nous obtenons des résultats state-of-the-art sur deux jeux de données complets de cartographie des inondations : Sen1Flood11 et FloodPlanet. Sur les données de test de Sen1Flood11, Prithvi-CAFE (IoU 83,41) surpasse le Prithvi original (IoU 82,50) et les autres GFM majeurs (TerraMind 82,90, DOFA 81,54, spectralGPT : 81,02). L'amélioration est encore plus marquée sur le site de test réservé, où Prithvi-CAFE atteint un IoU de 81,37 contre l'U-Net de référence (70,57) et le Prithvi original (72,42). Sur FloodPlanet, Prithvi-CAFE surpasse également l'U-Net de référence et les autres GFM, atteignant un IoU de 64,70 contre U-Net (60,14), Terramind (62,33), DOFA (59,15) et Prithvi 2.0 (61,91). Notre proposition Prithvi-CAFE, simple mais efficace, démontre un fort potentiel pour améliorer les tâches de segmentation où les données multi-canaux et multi-modales fournissent des informations complémentaires et où les détails locaux sont critiques. Le code est publié sur https://github.com/Sk-2103/Prithvi-CAFE.
Alors que les agents de modèles de langage de grande taille (LLM) sont de plus en plus chargés de prendre des décisions autonomes à enjeux élevés, la transparence de leurs processus de raisonnement est devenue un enjeu de sécurité critique. Bien que l'incitation par Chaîne de Pensée (CoT) permette aux agents de générer des traces de raisonnement lisibles par un humain, il n'est pas clair si ces traces sont des moteurs génératifs fidèles de la sortie du modèle ou simplement des rationalisations a posteriori. Nous présentons le Projet Ariadne, un nouveau cadre d'IA explicable (XAI) qui utilise des Modèles Causaux Structurels (SCM) et une logique contrefactuelle pour auditer l'intégrité causale du raisonnement agentique. Contrairement aux méthodes d'interprétabilité existantes qui reposent sur la similarité textuelle de surface, le Projet Ariadne effectue des interventions fortes (do-calcul) sur les nœuds de raisonnement intermédiaires – en inversant systématiquement la logique, en niant les prémisses et en renversant les affirmations factuelles – pour mesurer la Sensibilité Causale (φ) de la réponse finale. Notre évaluation empirique des modèles de pointe révèle un Écart de Fidélité persistant. Nous définissons et détectons un mode de défaillance répandu, appelé Découplage Causal, où les agents présentent une densité de violation (ρ) allant jusqu'à 0,77 dans les domaines factuels et scientifiques. Dans ces cas, les agents parviennent à des conclusions identiques malgré une logique interne contradictoire, prouvant que leurs traces de raisonnement fonctionnent comme un « Théâtre du Raisonnement » tandis que la prise de décision est gouvernée par des prérequis paramétriques latents. Nos résultats suggèrent que les architectures agentiques actuelles sont intrinsèquement sujettes à des explications non fidèles, et nous proposons le Score Ariadne comme nouveau benchmark pour aligner la logique énoncée avec l'action du modèle.
Les modèles de diffusion texte-image peuvent générer du contenu préjudiciable ou protégé par des droits d'auteur, ce qui motive la recherche sur l'effacement de concepts. Cependant, les approches existantes se concentrent principalement sur l'effacement des concepts à partir d'invites textuelles, négligeant d'autres modalités d'entrée qui deviennent de plus en plus critiques dans les applications réelles telles que la retouche d'image et la génération personnalisée. Ces modalités peuvent devenir des surfaces d'attaque, où les concepts effacés réapparaissent malgré les défenses. Pour combler cette lacune, nous présentons M-ErasureBench, un nouveau cadre d'évaluation multimodal qui évalue systématiquement les méthodes d'effacement de concepts sur trois modalités d'entrée : les invites textuelles, les plongements appris et les latents inversés. Pour les deux dernières, nous évaluons à la fois l'accès en boîte blanche et en boîte noire, ce qui donne cinq scénarios d'évaluation. Notre analyse montre que les méthodes existantes obtiennent de bonnes performances d'effacement contre les invites textuelles, mais échouent largement face aux plongements appris et aux latents inversés, avec un Taux de Reproduction de Concept (CRR) dépassant 90% dans le scénario en boîte blanche. Pour remédier à ces vulnérabilités, nous proposons IRECE (Amélioration de la Robustesse au Temps de l'Inférence pour l'Effacement de Concept), un module plug-and-play qui localise les concepts cibles via l'attention croisée et perturbe les latents associés pendant le débruitage. Les expériences démontrent qu'IRECE rétablit constamment la robustesse, réduisant le CRR jusqu'à 40% dans le scénario le plus difficile d'inversion de latent en boîte blanche, tout en préservant la qualité visuelle. À notre connaissance, M-ErasureBench constitue le premier benchmark complet pour l'effacement de concepts au-delà des invites textuelles. Avec IRECE, notre benchmark offre des garanties pratiques pour construire des modèles génératifs de protection plus fiables.