papers.description
Le modèle de raisonnement hiérarchique (HRM) est une approche novatrice utilisant deux petits réseaux de neurones récursifs fonctionnant à différentes fréquences. Cette méthode inspirée de la biologie surpasse les modèles de langage de grande taille (LLMs) sur des tâches complexes telles que le Sudoku, les labyrinthes et ARC-AGI, tout en étant entraînée avec de petits modèles (27 millions de paramètres) sur de petits ensembles de données (environ 1000 exemples). Le HRM montre un grand potentiel pour résoudre des problèmes complexes avec des réseaux de petite taille, mais il n'est pas encore bien compris et pourrait être sous-optimal. Nous proposons le modèle récursif miniature (TRM), une approche de raisonnement récursif beaucoup plus simple qui atteint une généralisation significativement supérieure à celle du HRM, tout en utilisant un seul petit réseau avec seulement 2 couches. Avec seulement 7 millions de paramètres, le TRM obtient une précision de test de 45 % sur ARC-AGI-1 et de 8 % sur ARC-AGI-2, surpassant la plupart des LLMs (par exemple, Deepseek R1, o3-mini, Gemini 2.5 Pro) avec moins de 0,01 % des paramètres.
L'apprentissage par renforcement axé sur les résultats a fait progresser le raisonnement dans les grands modèles de langage (LLMs), mais les approches prédominantes basées sur des outils entraînent une politique unique et monolithique qui entrelace les pensées et les appels d'outils dans un contexte complet ; cela évolue mal avec des horizons temporels longs et des outils diversifiés, et généralise faiblement à de nouveaux scénarios. Les systèmes agentiques offrent une alternative prometteuse en décomposant le travail entre des modules spécialisés, mais la plupart restent sans entraînement ou reposent sur un entraînement hors ligne découplé de la dynamique en temps réel des interactions multi-tours. Nous présentons AgentFlow, un cadre agentique entraînable en flux qui coordonne quatre modules (planificateur, exécuteur, vérificateur, générateur) à travers une mémoire évolutive et optimise directement son planificateur dans la boucle multi-tours. Pour entraîner en politique dans des environnements en temps réel, nous proposons l'Optimisation de Politique Raffinée par Groupe basée sur le Flux (Flow-GRPO), qui aborde l'attribution de crédit à long terme et à récompense éparse en convertissant l'optimisation multi-tours en une séquence de mises à jour de politique mono-tour gérables. Elle diffuse un seul résultat vérifiable au niveau de la trajectoire à chaque tour pour aligner les décisions locales du planificateur avec le succès global et stabilise l'apprentissage avec des avantages normalisés par groupe. Sur dix benchmarks, AgentFlow avec un modèle de base de 7 milliards de paramètres surpasse les meilleures méthodes de référence avec des gains de précision moyens de 14,9 % sur les tâches de recherche, 14,0 % sur les tâches agentiques, 14,5 % sur les tâches mathématiques et 4,1 % sur les tâches scientifiques, dépassant même des modèles propriétaires plus grands comme GPT-4o. Des analyses supplémentaires confirment les avantages de l'optimisation en flux, montrant une planification améliorée, une fiabilité accrue des appels d'outils et une mise à l'échelle positive avec la taille du modèle et les tours de raisonnement.
Le raisonnement intégré aux outils est devenu un axe clé pour permettre des applications agentiques. Parmi celles-ci, les agents DeepResearch ont suscité une attention significative pour leurs performances élevées sur des tâches complexes et ouvertes de recherche d’informations. Nous présentons Fathom-DeepResearch, un système agentique composé de deux modèles spécialisés. Le premier est Fathom-Search-4B, un modèle DeepSearch entraîné à partir de Qwen3-4B et optimisé pour des investigations fondées sur des preuves via la recherche web en temps réel et l’interrogation ciblée de pages web. Son entraînement combine trois avancées : (i) DUETQA, un ensemble de données de 5 000 échantillons généré via un jeu multi-agent qui impose une dépendance stricte à la recherche web et un ancrage hétérogène des sources ; (ii) RAPO, une extension sans surcharge de GRPO qui stabilise l’apprentissage par renforcement multi-tours avec des récompenses vérifiables grâce à l’élagage curriculaire, la mise à l’échelle des avantages basée sur les récompenses et des tampons de relecture par prompt ; et (iii) une récompense modulable au niveau des étapes qui classe chaque appel d’outil par comportement cognitif et utilité marginale, permettant un contrôle explicite sur la largeur, la profondeur et l’horizon de la trajectoire de recherche. Ces améliorations permettent une extension fiable des appels d’outils au-delà de 20 appels lorsque cela est justifié. Le second est Fathom-Synthesizer-4B, entraîné à partir de Qwen3-4B, qui convertit les traces multi-tours de DeepSearch en rapports DeepResearch structurés et riches en citations pour une synthèse exhaustive. Évalué sur des benchmarks DeepSearch (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) et DeepResearch-Bench, le système atteint des performances de pointe dans la catégorie des modèles à poids ouverts tout en démontrant une forte généralisation à des tâches de raisonnement variées, notamment HLE, AIME-25, GPQA-Diamond et MedQA.
Les modèles de récompense de processus (PRM) ont récemment émergé comme un cadre puissant pour améliorer les capacités de raisonnement des grands modèles de raisonnement (LRM), en particulier dans le contexte de la mise à l'échelle au moment du test (TTS). Cependant, leur potentiel pour superviser les LRM dans les domaines de raisonnement tabulaire reste sous-exploré. À travers des analyses empiriques détaillées, nous identifions que les PRM existants, bien que largement adoptés pour superviser les étapes de raisonnement basées uniquement sur le texte, peinent à gérer les opérations spécifiques aux tableaux, telles que la récupération de sous-tableaux et l'interaction avec les schémas, ce qui entraîne des goulots d'étranglement critiques en termes de performance. Pour remédier à cette limitation, nous proposons TaTToo, un nouveau cadre PRM ancré dans les tableaux qui (i) raisonne explicitement sur les étapes de raisonnement tabulaire et (ii) intègre une vérification basée sur des outils pour fournir une supervision précise des récompenses. Concrètement, nous concevons d'abord un pipeline évolutif de curation de données qui construit plus de 60 000 annotations de haute qualité au niveau des étapes en intégrant des justifications de vérification de tableaux avec des exécutions basées sur des outils. En nous appuyant sur les données collectées, nous entraînons TaTToo avec un paradigme en deux étapes : un réglage fin supervisé à froid pour capturer les schémas de raisonnement basés sur les outils, suivi d'un apprentissage par renforcement avec un modelage de récompense ancré dans les outils pour aligner notre modèle avec la vérification basée sur les tableaux. Nous fournissons une évaluation complète de l'amélioration de la politique induite par notre nouveau PRM. Sur 5 benchmarks exigeants de raisonnement tabulaire couvrant le raisonnement numérique, la vérification des faits et l'analyse de données, TaTToo améliore les LRM politiques en aval de 30,9 % à l'inférence, surpasse des PRM de référence solides tels que Qwen-2.5-Math-PRM-72B avec seulement 8 milliards de paramètres, et démontre une forte généralisabilité à travers diverses stratégies de TTS.
Les modèles de langage autoregressifs (AR) de grande taille (LLMs) ont atteint des performances remarquables sur une large gamme de tâches de traitement du langage naturel, bien que leur décodage séquentiel inhérent limite l'efficacité de l'inférence. Dans ce travail, nous proposons Fast-dLLM v2, un modèle de langage à diffusion par blocs (dLLM) soigneusement conçu qui adapte efficacement des modèles AR pré-entraînés en dLLMs pour la génération parallèle de texte, nécessitant seulement environ 1 milliard de tokens de réglage fin. Cela représente une réduction de 500 fois des données d'entraînement par rapport aux LLMs à diffusion à pleine attention comme Dream (580 milliards de tokens), tout en préservant les performances du modèle original. Notre approche introduit une nouvelle méthode d'entraînement qui combine un mécanisme de diffusion par blocs avec un masque d'attention complémentaire, permettant une modélisation contextuelle bidirectionnelle par blocs sans sacrifier les objectifs d'entraînement AR. Pour accélérer davantage le décodage, nous concevons un mécanisme de mise en cache hiérarchique : un cache au niveau des blocs qui stocke les représentations contextuelles historiques à travers les blocs, et un cache au niveau des sous-blocs qui permet une génération parallèle efficace au sein de blocs partiellement décodés. Couplé à notre pipeline de décodage parallèle, Fast-dLLM v2 atteint une accélération jusqu'à 2,5 fois par rapport au décodage AR standard sans compromettre la qualité de la génération. Des expériences approfondies sur divers benchmarks démontrent que Fast-dLLM v2 égale ou dépasse les modèles de référence AR en termes de précision, tout en offrant une efficacité de pointe parmi les dLLMs – marquant une étape significative vers le déploiement pratique de LLMs rapides et précis. Le code et le modèle seront rendus publics.
Les modèles de langage à diffusion promettent un contexte bidirectionnel et des capacités de remplissage que les codeurs autorégressifs ne possèdent pas, mais les systèmes pratiques restent lourds. Nous présentons CoDA, un codeur à diffusion de 1,7 milliard de paramètres entraîné sur TPU avec un pipeline d'entraînement entièrement open-source. CoDA associe un pré-entraînement à grande échelle par diffusion à un entraînement intermédiaire centré sur le code et un réglage par instruction, permettant un échantillonnage guidé par la confiance qui maintient une latence d'inférence compétitive. Sur Humaneval, MBPP et EvalPlus, CoDA-1.7B-Instruct égale ou dépasse les modèles à diffusion allant jusqu'à 7 milliards de paramètres. Notre publication inclut des points de contrôle de modèle, des outils d'évaluation et des pipelines d'entraînement sur TPU pour accélérer la recherche sur les assistants de codage légers basés sur la diffusion.
Les modèles non autorégressifs (NAR) basés sur la diffusion et les flux ont montré un fort potentiel dans la modélisation des langues à grande échelle, mais leur application à la reconnaissance automatique de la parole (ASR) reste largement inexplorée. Nous proposons Drax, un cadre de correspondance de flux discret pour l'ASR qui permet un décodage parallèle efficace. Pour mieux aligner l'entraînement avec l'inférence, nous construisons un chemin de probabilité conditionné par l'audio qui guide le modèle à travers des trajectoires ressemblant à des erreurs intermédiaires probables lors de l'inférence, plutôt que des transitions directes du bruit aléatoire vers la cible. Notre analyse théorique relie l'écart de généralisation aux divergences entre les occupations d'entraînement et d'inférence, contrôlées par les erreurs de vitesse cumulées, justifiant ainsi notre choix de conception. L'évaluation empirique démontre que notre approche atteint une précision de reconnaissance comparable aux modèles de parole de pointe tout en offrant de meilleurs compromis précision-efficacité, soulignant la correspondance de flux discret comme une voie prometteuse pour faire progresser l'ASR NAR.
Les modèles de raisonnement améliorent les performances en abordant les problèmes de manière séquentielle, en les décomposant en sous-problèmes et en explorant de longues chaînes de réflexion avant de produire une réponse. Cependant, l'application d'un raisonnement approfondi à chaque étape introduit une redondance significative, car les sous-problèmes varient considérablement en difficulté et en complexité : un petit nombre d'étapes clés sont véritablement complexes et déterminantes pour la réponse finale, tandis que beaucoup d'autres ne nécessitent que des révisions simples ou des calculs élémentaires. Par conséquent, une idée naturelle est de doter les modèles de raisonnement de la capacité de s'adapter dynamiquement à cette variation, plutôt que de traiter toutes les étapes avec le même niveau de détail. À cette fin, nous proposons MixReasoning, un cadre qui ajuste dynamiquement la profondeur du raisonnement au sein d'une même réponse. La chaîne de raisonnement résultante devient alors un mélange de raisonnements détaillés pour les étapes difficiles et d'inférences concises pour les étapes plus simples. Les expériences menées sur GSM8K, MATH-500 et AIME montrent que MixReasoning réduit la longueur du raisonnement et améliore considérablement l'efficacité sans compromettre la précision.
La capacité de raisonnement est cruciale pour les modèles de langage à grande échelle (LLMs) afin de résoudre des tâches complexes, mais atteindre un raisonnement fiable et évolutif reste un défi. Bien que l'incitation par chaîne de pensée (Chain-of-Thought, CoT) soit devenue une approche dominante, les méthodes existantes souffrent souvent de génération non contrôlée, d'une qualité insuffisante et d'une diversité limitée dans les chemins de raisonnement. Des efforts récents exploitent le code pour améliorer la CoT en ancrant le raisonnement dans des étapes exécutables, mais ces méthodes sont généralement limitées à des problèmes mathématiques prédéfinis, entravant ainsi leur évolutivité et leur généralisation. Dans ce travail, nous proposons Caco (Code-Assisted Chain-of-ThOught), un cadre novateur qui automatise la synthèse de données de raisonnement instruction-CoT de haute qualité, vérifiables et diversifiées grâce à une augmentation pilotée par le code. Contrairement aux travaux précédents, Caco affine d'abord un générateur de CoT basé sur le code à partir de solutions mathématiques et de programmation existantes dans un format de code unifié, puis étend la génération de données à un grand nombre de traces de raisonnement diversifiées. De manière cruciale, nous introduisons une validation automatisée via l'exécution de code et un filtrage basé sur des règles pour garantir la correction logique et la diversité structurelle, suivie d'une rétro-ingénierie des sorties filtrées en instructions en langage naturel et en CoT linguistiques pour enrichir l'adaptabilité des tâches. Ce processus en boucle fermée permet une synthèse entièrement automatisée et évolutive de données de raisonnement avec une exécutabilité garantie. Les expériences sur notre ensemble de données Caco-1.3M montrent que les modèles entraînés avec Caco atteignent des performances compétitives solides sur des benchmarks de raisonnement mathématique, surpassant les bases de référence existantes. Une analyse approfondie révèle que la vérification ancrée dans le code et la diversité des instructions de Caco contribuent à une généralisation supérieure sur des tâches inédites. Notre travail établit un paradigme pour la construction de systèmes de raisonnement autonomes et fiables sans intervention humaine.
Les grands modèles de langage (LLMs) ont démontré des performances remarquables dans les tâches de conversion texte-SQL en une seule étape, mais les applications de bases de données réelles nécessitent principalement des interactions multi-tours pour gérer les requêtes ambiguës, les erreurs d'exécution et les exigences évolutives des utilisateurs. Les benchmarks multi-tours existants sont insuffisants en traitant les historiques de conversation comme un contexte statique ou en limitant l'évaluation à des opérations en lecture seule, ne reflétant pas les défis des assistants de bases de données de niveau production. Nous introduisons BIRD-INTERACT, un benchmark qui rétablit ce réalisme grâce à : (1) un environnement d'interaction complet couplant chaque base de données à une base de connaissances hiérarchique, des fichiers de métadonnées et un simulateur d'utilisateur piloté par des fonctions, permettant aux modèles de solliciter des clarifications, de récupérer des connaissances et de se remettre des erreurs sans supervision humaine ; (2) deux configurations d'évaluation consistant en un protocole conversationnel prédéfini (c-Interact) et un cadre agentique ouvert (a-Interact) où les modèles décident de manière autonome quand interroger le simulateur d'utilisateur ou explorer l'environnement ; (3) une suite de tâches complexes couvrant le spectre complet CRUD pour des cas d'utilisation en intelligence d'affaires et opérationnels, protégés par des cas de test exécutables. Chaque tâche comprend des sous-tâches ambiguës et de suivi nécessitant une interaction dynamique. La suite comprend BIRD-INTERACT-FULL (600 tâches, jusqu'à 11 796 interactions) pour une évaluation complète des performances, et BIRD-INTERACT-LITE (300 tâches avec des bases de données simplifiées) pour une analyse comportementale détaillée et un développement rapide de méthodes. Nos résultats empiriques soulignent la difficulté de BIRD-INTERACT : GPT-5 ne complète que 8,67 % des tâches en c-Interact et 17,00 % en a-Interact. L'analyse via le greffage de mémoire et la mise à l'échelle au moment du test d'interaction valide l'importance d'une interaction efficace pour les tâches complexes et dynamiques de conversion texte-SQL.
La génération de formes 4D conditionnée par vidéo vise à reconstruire la géométrie 3D variant dans le temps et l'apparence cohérente en vue directement à partir d'une vidéo d'entrée. Dans ce travail, nous introduisons un cadre natif de génération vidéo-vers-4D qui synthétise une représentation dynamique 3D unique de bout en bout à partir de la vidéo. Notre cadre intègre trois composants clés basés sur des modèles 3D pré-entraînés à grande échelle : (i) une attention temporelle qui conditionne la génération sur toutes les images tout en produisant une représentation dynamique indexée dans le temps ; (ii) un échantillonnage de points conscient du temps et un ancrage latent 4D qui favorisent une géométrie et une texture temporellement cohérentes ; et (iii) un partage de bruit entre les images pour améliorer la stabilité temporelle. Notre méthode capture avec précision les mouvements non rigides, les changements de volume, et même les transitions topologiques sans optimisation par image. Sur diverses vidéos en conditions réelles, notre méthode améliore la robustesse et la fidélité perceptuelle tout en réduisant les modes d'échec par rapport aux méthodes de référence.
Les méthodes récentes de post-entraînement des modèles de langage de grande taille (LLM) reposent sur des mécanismes de découpage au niveau des tokens lors de l'apprentissage par renforcement (RL). Cependant, nous identifions une faille fondamentale dans ce paradigme de RL supervisé par les résultats (OSRL) : les ratios d'échantillonnage d'importance (IS) des tokens à avantage positif sont mal alignés, entraînant une pondération déséquilibrée entre les tokens positifs et négatifs. Ce désalignement supprime la mise à jour des tokens de faible probabilité tout en amplifiant excessivement ceux déjà de haute probabilité. Pour remédier à cela, nous proposons l'Optimisation de Politique par Échantillonnage d'Importance Asymétrique (ASPO), qui utilise une stratégie simple mais efficace en inversant les ratios IS des tokens à avantage positif, alignant ainsi leur direction de mise à jour avec la dynamique d'apprentissage des tokens négatifs. ASPO intègre également un mécanisme de double découpage doux pour stabiliser les mises à jour extrêmes tout en maintenant le flux de gradients. Des expériences approfondies sur des benchmarks de codage et de raisonnement mathématique démontrent qu'ASPO atténue significativement la convergence prématurée, améliore la stabilité de l'entraînement et renforce les performances finales par rapport aux bases de référence basées sur GRPO. Notre analyse apporte de nouvelles perspectives sur le rôle de la pondération au niveau des tokens dans l'OSRL et souligne l'importance cruciale de la correction de l'IS dans le RL des LLM. Le code et les modèles d'ASPO sont disponibles à l'adresse https://github.com/wizard-III/Archer2.0.
La promotion des articles académiques est devenue un moyen essentiel pour accroître la visibilité des recherches. Cependant, les méthodes automatisées existantes peinent à offrir une narration cohérente, une qualité esthétique insuffisante et une capacité d'auto-ajustement limitée, rendant difficile une diffusion efficace et engageante. Au cœur de ces défis se trouve un principe simple : il est impossible de s’améliorer sans une évaluation adéquate. Pour répondre à cela, nous présentons EvoPresent, un cadre d’agent d’auto-amélioration qui unifie des récits cohérents, des designs sensibles à l’esthétique et une présentation réaliste via des personnages virtuels. Au centre d’EvoPresent se trouve PresAesth, un modèle esthétique d’apprentissage par renforcement multi-tâches (RL) qui fournit une notation esthétique fiable, un ajustement des défauts et un retour comparatif, permettant une auto-amélioration itérative même avec des données d’entraînement esthétiques limitées. Pour évaluer systématiquement les méthodes, nous introduisons EvoPresent Benchmark, un benchmark complet comprenant : la Qualité de Génération de Présentation, basée sur 650 articles de conférences IA de premier plan avec des ressources multimodales (diapositives, vidéos et scripts) pour évaluer à la fois le contenu et le design ; et la Sensibilité Esthétique, composée de 2 000 paires de diapositives avec des niveaux esthétiques variés, soutenant l’entraînement et l’évaluation conjoints sur la notation, l’ajustement des défauts et la comparaison. Nos résultats mettent en évidence que (i) Un retour de haute qualité est essentiel pour l’auto-amélioration de l’agent, tandis que la capacité initiale seule ne garantit pas une auto-correction efficace. (ii) Les pipelines de génération automatisée présentent un compromis entre le design visuel et la construction du contenu. (iii) L’entraînement RL multi-tâches montre une meilleure généralisation dans les tâches de sensibilité esthétique.
Les récents progrès dans les modèles médicaux génératifs sont limités par des scénarios spécifiques à chaque modalité, ce qui entrave l'intégration de preuves complémentaires provenant de l'imagerie, de la pathologie et des notes cliniques. Cette fragmentation restreint leur évolution vers des modèles de base capables d'apprendre et de raisonner à travers l'ensemble du spectre des données biomédicales. Nous proposons MeDiM, le premier modèle de diffusion discrète médical qui apprend des distributions partagées entre les modalités sans composants spécifiques à une modalité. MeDiM unifie plusieurs tâches génératives : la traduction entre images et texte, et la production conjointe de paires image-rapport à travers différents domaines en réponse à des prompts. Basé sur un cadre de diffusion discrète, MeDiM relie les représentations visuelles et linguistiques à travers un espace probabiliste partagé. Pour permettre une génération médicale unifiée et flexible, nous utilisons un modèle de langage multimodal (MLLM) comme structure de diffusion, en exploitant ses connaissances préalables et son raisonnement intermodal. Deux conceptions clés sont introduites : (1) la suppression du masque d'attention causal pour un contexte bidirectionnel, et (2) l'injection d'embeddings temporels continus pour la prise de conscience de la diffusion. Les expériences démontrent une génération médicale de haute fidélité (FID 16,60 sur MIMIC-CXR et FID 24,19 sur PathGen) et une génération précise de rapports (METEOR 0,2650 et 0,2580). Les paires image-rapport générées conjointement améliorent encore les performances en aval (plus 6,43 % BLEU-1, plus 18,57 % BLEU-2, plus 31,58 % BLEU-3, plus 4,80 % METEOR), montrant que MeDiM soutient des sorties multimodales cohérentes et cliniquement pertinentes.
Les modèles de langage multimodaux de grande taille (MLLMs) ont récemment réalisé des progrès remarquables en radiologie en intégrant la perception visuelle avec la compréhension du langage naturel. Cependant, ils génèrent souvent des descriptions non étayées cliniquement, connues sous le nom d'hallucinations médicales, qui posent des risques sérieux dans les applications médicales exigeant précision et résultats ancrés dans l'image. À travers une analyse empirique, nous constatons que les hallucinations induites par les prompts restent prévalentes dans les MLLMs de radiologie, principalement en raison d'une sensibilité excessive aux sections cliniques. Pour remédier à cela, nous introduisons le Clinical Contrastive Decoding (CCD), un cadre d'inférence sans apprentissage et sans récupération qui intègre des signaux cliniques structurés provenant de modèles experts en radiologie spécifiques à la tâche. Le CCD introduit un mécanisme contrastif en deux étapes pour affiner les logits au niveau des tokens lors de la génération, améliorant ainsi la fidélité clinique sans modifier le MLLM de base. Les expériences sur trois ensembles de données et plusieurs modèles démontrent que le CCD améliore de manière constante les performances globales en génération de rapports radiologiques (RRG). Sur l'ensemble de données MIMIC-CXR, il permet une amélioration allant jusqu'à 17 % en RadGraph-F1 lorsqu'il est appliqué aux modèles RRG de pointe. Notre approche fournit une solution légère et généralisable pour atténuer les hallucinations médicales, reliant efficacement les modèles experts et les MLLMs en radiologie.
Nous présentons OneFlow, le premier modèle multimodal non-autorégressif permettant une génération concurrente et de longueur variable de contenus mixtes. Contrairement aux modèles autorégressifs qui imposent un ordre causal rigide entre la génération de texte et d'images, OneFlow combine un flux d'insertion (Edit Flow) pour les tokens textuels discrets avec un appariement de flux (Flow Matching) pour les latents d'images. OneFlow permet une synthèse concurrente texte-image grâce à un échantillonnage hiérarchique qui privilégie le contenu plutôt que la grammaire. À travers des expériences contrôlées sur des tailles de modèle allant de 1B à 8B, nous démontrons que OneFlow surpasse les modèles de référence autorégressifs à la fois en génération et en compréhension, tout en utilisant jusqu'à 50 % moins de FLOPs d'entraînement. OneFlow dépasse à la fois les approches autorégressives et basées sur la diffusion, tout en débloquant de nouvelles capacités pour la génération concurrente, le raffinement itératif et la génération naturelle de type raisonnement.
Un élément clé du raisonnement en contexte est la capacité des modèles de langage (ML) à lier des entités pour une récupération ultérieure. Par exemple, un ML pourrait représenter "Ann aime la tarte" en liant "Ann" à "tarte", lui permettant ainsi de récupérer "Ann" lorsqu'on lui demande "Qui aime la tarte ?" Des recherches antérieures sur de courtes listes d'entités liées ont révélé des preuves solides que les ML mettent en œuvre une telle récupération via un mécanisme positionnel, où "Ann" est récupérée en fonction de sa position dans le contexte. Dans ce travail, nous constatons que ce mécanisme se généralise mal à des contextes plus complexes ; à mesure que le nombre d'entités liées dans le contexte augmente, le mécanisme positionnel devient bruyant et peu fiable pour les positions intermédiaires. Pour compenser cela, nous observons que les ML complètent le mécanisme positionnel par un mécanisme lexical (récupérant "Ann" en utilisant son homologue lié "tarte") et un mécanisme réflexif (récupérant "Ann" via un pointeur direct). À travers des expériences approfondies sur neuf modèles et dix tâches de liaison, nous dégageons un schéma cohérent dans la manière dont les ML mélangent ces mécanismes pour influencer le comportement du modèle. Nous exploitons ces insights pour développer un modèle causal combinant les trois mécanismes, qui estime les distributions de tokens suivants avec un accord de 95 %. Enfin, nous montrons que notre modèle se généralise à des entrées substantiellement plus longues de texte ouvert entrecoupé de groupes d'entités, démontrant davantage la robustesse de nos résultats dans des contextes plus naturels. Globalement, notre étude établit une vision plus complète de la manière dont les ML lient et récupèrent les entités en contexte.
Les méthodes prédominantes pour entraîner les modèles de langage de grande taille (LLM) en tant qu'encodeurs de texte reposent sur des pertes contrastives qui traitent le modèle comme une fonction boîte noire, abandonnant ses capacités génératives et de raisonnement au profit d'embeddings statiques. Nous présentons GRACE (Generative Representation Learning via Contrastive Policy Optimization), un cadre novateur qui réinvente les signaux contrastifs non pas comme des pertes à minimiser, mais comme des récompenses guidant une politique générative. Dans GRACE, le LLM agit comme une politique produisant des justifications explicites et interprétables par l'homme - des explications en langage naturel structurées de sa compréhension sémantique. Ces justifications sont ensuite encodées en embeddings de haute qualité via un pooling moyen. En utilisant l'optimisation par gradient de politique, nous entraînons le modèle avec une fonction de récompense multi-composantes qui maximise la similarité entre les paires positives de requêtes et minimise la similarité avec les négatives. Cela transforme le LLM d'un encodeur opaque en un agent interprétable dont le processus de raisonnement est transparent et inspectable. Sur le benchmark MTEB, GRACE apporte des gains transversaux : en moyenne sur quatre architectures, le cadre supervisé améliore le score global de 11,5 % par rapport aux modèles de base, et la variante non supervisée ajoute 6,9 %, tout en préservant les capacités générales. Ce travail traite les objectifs contrastifs comme des récompenses sur les justifications, unifiant l'apprentissage de représentations avec la génération pour produire des embeddings plus robustes et des justifications transparentes. Le modèle, les données et le code sont disponibles à l'adresse https://github.com/GasolSun36/GRACE.
Nous présentons Human3R, un cadre unifié et direct pour la reconstruction 4D en ligne de scènes humaines, dans le référentiel mondial, à partir de vidéos monoscopiques capturées de manière occasionnelle. Contrairement aux approches précédentes qui reposent sur des pipelines multi-étapes, un raffinement itératif prenant en compte les contacts entre les humains et les scènes, et des dépendances lourdes, par exemple, la détection humaine, l'estimation de profondeur et le prétraitement SLAM, Human3R récupère conjointement les corps SMPL-X globaux multi-personnes ("tout le monde"), la scène 3D dense ("partout") et les trajectoires de la caméra en une seule passe avant ("tout-en-un"). Notre méthode s'appuie sur le modèle de reconstruction 4D en ligne CUT3R et utilise un réglage visuel de prompts paramétriquement efficace, afin de préserver les riches a priori spatio-temporels de CUT3R, tout en permettant la lecture directe de multiples corps SMPL-X. Human3R est un modèle unifié qui élimine les dépendances lourdes et le raffinement itératif. Après avoir été entraîné sur le jeu de données synthétique relativement petit BEDLAM pendant seulement un jour sur un GPU, il atteint des performances supérieures avec une efficacité remarquable : il reconstruit plusieurs humains en une seule étape, ainsi que des scènes 3D, en temps réel (15 FPS) avec une empreinte mémoire faible (8 Go). Des expériences approfondies démontrent que Human3R offre des performances de pointe ou compétitives dans diverses tâches, y compris l'estimation globale du mouvement humain, la récupération locale de maillages humains, l'estimation de la profondeur vidéo et l'estimation de la pose de la caméra, avec un seul modèle unifié. Nous espérons que Human3R servira de base simple mais solide, et pourra être facilement étendu pour des applications en aval. Code disponible sur https://fanegg.github.io/Human3R.
Les modèles modernes de traitement du langage naturel ont atteint une échelle sans précédent, mais les outils pour leur évaluation restent souvent un goulot d'étranglement computationnel, limitant le rythme de la recherche. Ce problème est particulièrement aigu pour les métriques d'évaluation en cours d'entraînement, telles que les signaux de récompense par phrase dans l'apprentissage par renforcement, qui doivent fonctionner efficacement sur des lots d'identifiants de tokens directement sur le GPU. Dans cet article, nous présentons TensorBLEU, une nouvelle implémentation de la métrique BLEU conçue spécifiquement pour ce cas d'utilisation. Notre approche est entièrement vectorisée pour un calcul accéléré par GPU, phrase par phrase, dans PyTorch, et introduit un mécanisme de comptage économe en mémoire. En créant un dictionnaire compact de n-grams spécifique à chaque lot à l'aide de torch.unique, notre méthode évite les coûts mémoire prohibitifs de la vectorisation traditionnelle basée sur le hachage, la rendant pratique pour les modèles à vocabulaire étendu. Nous comparons TensorBLEU à NLTK, la bibliothèque standard pour le calcul de BLEU basé sur des identifiants de tokens sur le CPU. Les expériences montrent que TensorBLEU offre des accélérations de plus de 13x sur des GPU grand public (NVIDIA T4) et dépassant 40x sur du matériel de classe centre de données (NVIDIA A100). Cette performance transforme un goulot d'étranglement significatif en une partie négligeable de la boucle d'entraînement. En définissant clairement son rôle en tant que "BLEU sur identifiants de tokens" à des fins de développement et en ouvrant notre implémentation en open source, nous fournissons un outil puissant pour accélérer la recherche dans des domaines comme le réglage fin de modèles basé sur l'apprentissage par renforcement.
Le classement en contexte (In-context Ranking, ICR) est un paradigme émergent en recherche d'information (Information Retrieval, IR) qui exploite la compréhension contextuelle des modèles de langage de grande taille (LLMs) en intégrant directement la description de la tâche, les documents candidats et la requête dans l'invite d'entrée du modèle, tout en chargeant le LLM d'identifier les documents pertinents. Bien qu'efficace, l'efficience constitue un défi majeur dans ce paradigme, notamment à mesure que la liste des candidats s'allonge en raison de l'échelle quadratique/super-linéaire des opérations d'attention avec la longueur du contexte. À cet égard, cet article identifie d'abord des structures inhérentes et exploitables dans l'attention des LLMs affinés pour l'ICR : (1) la parcimonie inter-bloc des documents : l'attention est dense au sein de chaque bloc de document mais parcimonieuse entre les différents documents du contexte ; et (2) la pertinence des blocs requête-document : les scores d'attention de certains tokens de la requête vers un bloc de document dans les couches intermédiaires corrèlent fortement avec la pertinence réelle de ce document. Motivés par ces observations, nous introduisons BlockRank (Classement en contexte par blocs), une méthode novatrice qui adapte l'opération d'attention dans un LLM en (a) imposant architecturalement la parcimonie inter-bloc observée, réduisant ainsi la complexité de l'attention de quadratique à linéaire sans perte de performance, et (b) en optimisant la pertinence des blocs requête-document pour les documents réellement pertinents lors de l'affinage grâce à un objectif de formation contrastive auxiliaire, améliorant ainsi la récupération dans l'attention. Les expériences sur BEIR, MSMarco et NQ avec Mistral-7B démontrent que FLARE Mistral égale ou surpasse les classificateurs par liste existants de l'état de l'art (SOTA) et la ligne de base affinée de manière contrôlée, tout en étant significativement plus efficace lors de l'inférence (4,7x pour 100 documents MSMarco en contexte) et en s'adaptant avec grâce à des listes courtes de contexte long, environ 500 documents en contexte (environ 100K de longueur de contexte) en moins d'une seconde, offrant ainsi une solution scalable et efficace pour l'ICR.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est un paradigme puissant pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, son succès dépend d'une exploration efficace. Une stratégie d'exploration idéale doit relever deux défis fondamentaux : elle doit préserver la qualité des échantillons tout en assurant la stabilité de l'entraînement. Bien que l'échantillonnage à température fixe soit simple, il peine à équilibrer ces exigences concurrentes, car des températures élevées dégradent la qualité des échantillons et des températures basses limitent la découverte. Dans ce travail, nous proposons une stratégie plus simple et plus efficace, le **Décodage Recuit Exploratoire (EAD)**, fondée sur l'idée que l'exploration est plus impactante sur les premiers jetons, qui définissent la direction sémantique d'une séquence. L'EAD met en œuvre une stratégie intuitive d'**exploration au début, exploitation à la fin** en faisant varier la température d'échantillonnage de haut en bas pendant la génération. Ce programme dynamique encourage une diversité significative et de haut niveau au départ, puis réduit progressivement la température pour préserver la qualité des échantillons et maintenir la distribution d'échantillonnage proche de la politique cible, ce qui est essentiel pour un entraînement stable. Nous démontrons que l'EAD est une méthode légère et prête à l'emploi qui améliore significativement l'efficacité des échantillons, surpassant systématiquement l'échantillonnage à température fixe sur divers algorithmes RLVR et tailles de modèles. Notre travail suggère qu'aligner l'exploration sur la dynamique naturelle de la génération séquentielle offre une voie robuste pour améliorer le raisonnement des LLM.
Les modèles de raisonnement à grande échelle (LRMs) dotés de capacités de raisonnement en plusieurs étapes ont démontré des aptitudes remarquables à résoudre des problèmes, mais ils présentent des vulnérabilités de sécurité préoccupantes qui restent mal comprises. Dans ce travail, nous étudions pourquoi l'alignement de sécurité échoue dans les modèles de raisonnement à travers une perspective d'interprétabilité mécaniste. En utilisant une approche de sondage linéaire pour tracer les intentions de refus à travers les positions de tokens, nous découvrons un phénomène frappant appelé *falaise de refus* : de nombreux modèles de raisonnement mal alignés identifient correctement les invites nuisibles et maintiennent de fortes intentions de refus pendant leur processus de réflexion, mais subissent une chute brutale des scores de refus aux derniers tokens avant la génération de la sortie. Cela suggère que ces modèles ne sont pas intrinsèquement dangereux ; plutôt, leurs intentions de refus sont systématiquement supprimées. Grâce à une analyse d'intervention causale, nous identifions un ensemble restreint de têtes d'attention qui contribuent négativement au comportement de refus. L'ablation de seulement 3 % de ces têtes peut réduire les taux de réussite des attaques à moins de 10 %. En nous appuyant sur ces insights mécanistes, nous proposons *Cliff-as-a-Judge*, une nouvelle méthode de sélection de données qui identifie les exemples d'entraînement présentant la plus grande falaise de refus pour réparer efficacement l'alignement de sécurité des modèles de raisonnement. Cette approche obtient des améliorations de sécurité comparables en utilisant seulement 1,7 % des données d'entraînement de sécurité classiques, démontrant un effet *moins c'est plus* dans l'alignement de sécurité.
La numérisation du monde physique en environnements virtuels prêts pour la simulation précise offre des opportunités significatives dans divers domaines tels que la réalité augmentée, la réalité virtuelle, les jeux vidéo et la robotique. Cependant, les méthodes actuelles de reconstruction 3D et de compréhension de scènes présentent souvent des lacunes dans un ou plusieurs aspects critiques, tels que l'exhaustivité géométrique, l'interactivité des objets, la plausibilité physique, le rendu photoréaliste ou les propriétés physiques réalistes nécessaires à une simulation dynamique fiable. Pour surmonter ces limitations, nous présentons HoloScene, un nouveau cadre de reconstruction 3D interactive qui répond simultanément à ces exigences. HoloScene s'appuie sur une représentation complète de graphe de scène interactive, encodant la géométrie des objets, leur apparence et leurs propriétés physiques, ainsi que les relations hiérarchiques et inter-objets. La reconstruction est formulée comme un problème d'optimisation basé sur l'énergie, intégrant les données d'observation, les contraintes physiques et les a priori génératifs dans un objectif unifié et cohérent. L'optimisation est réalisée efficacement via une approche hybride combinant une exploration basée sur l'échantillonnage avec un affinement basé sur le gradient. Les jumeaux numériques résultants présentent une géométrie complète et précise, une stabilité physique et un rendu réaliste depuis de nouveaux points de vue. Les évaluations menées sur plusieurs ensembles de données de référence démontrent une performance supérieure, tandis que des cas d'utilisation pratiques dans les jeux interactifs et la manipulation en temps réel de jumeaux numériques illustrent la large applicabilité et l'efficacité de HoloScene. Page du projet : https://xiahongchi.github.io/HoloScene.
Les grands modèles de langage (LLMs) démontrent des capacités impressionnantes dans un large éventail de tâches, mais il reste incertain si ces succès reflètent un raisonnement authentique ou un rappel sophistiqué. Nous présentons AInstein, un cadre pour tester si les LLMs peuvent générer des solutions valides à des problèmes de recherche en IA en utilisant uniquement leurs connaissances paramétriques pré-entraînées — sans ajustement spécifique au domaine, augmentation par récupération ou autres aides externes. Notre approche extrait des énoncés de problèmes distillés à partir de soumissions de haute qualité à l'ICLR 2025, puis confie à des agents spécialisés la tâche de proposer et d'affiner des solutions techniques à travers des boucles de critique itératives, imitant les cycles de proposition, d'examen et de révision au cœur de la démarche scientifique. Nous évaluons AInstein sur 1 214 articles de l'ICLR stratifiés par niveau d'acceptation (Oral, Spotlight, Poster), en utilisant un paradigme de LLM-comme-juge guidé par une grille d'évaluation structurée, complétée par des vérifications manuelles ciblées. La performance est mesurée à l'aide de trois indicateurs : Taux de réussite (la solution aborde-t-elle le problème ?), Redécouverte (correspond-elle aux méthodes proposées par les humains ?) et Nouveauté (produit-elle des approches valides et originales ?). Nos résultats révèlent que si les LLMs peuvent redécouvrir des solutions réalisables et proposer occasionnellement des alternatives créatives, leur capacité à résoudre des problèmes reste fragile et très sensible à la formulation. Ces résultats fournissent les premières preuves à grande échelle sur la mesure dans laquelle les LLMs peuvent agir comme des résolveurs autonomes de problèmes scientifiques, mettant en lumière à la fois leur potentiel latent et leurs limites actuelles.
L'accélération sans apprentissage est apparue comme un domaine de recherche avancé dans la génération de vidéos basée sur les modèles de diffusion. La redondance des latents dans l'inférence des modèles de diffusion offre un point d'entrée naturel pour l'accélération. Dans cet article, nous décomposons le processus d'inférence en étapes d'encodage, de débruitage et de décodage, et observons que les méthodes d'accélération basées sur le cache entraînent souvent des augmentations substantielles de mémoire dans les deux dernières étapes. Pour résoudre ce problème, nous analysons les caractéristiques de l'inférence à travers les différentes étapes et proposons des stratégies spécifiques à chaque étape pour réduire la consommation de mémoire : 1) Échange asynchrone du cache. 2) Découpage des caractéristiques. 3) Découpage des latents pour le décodage. Parallèlement, nous veillons à ce que le surcoût temporel introduit par ces trois stratégies reste inférieur aux gains d'accélération eux-mêmes. Par rapport à la référence, notre approche permet une inférence plus rapide et une utilisation de la mémoire réduite, tout en maintenant la dégradation de la qualité dans une plage acceptable. Le code est disponible à l'adresse suivante : https://github.com/NKUShaw/LightCache.
L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) s'est imposée comme une méthode simple et efficace pour aligner les grands modèles de langage. Cependant, sa dépendance à un paramètre de température fixe entraîne un entraînement sous-optimal sur des données de préférences variées, provoquant un surajustement sur les exemples faciles et un sous-apprentissage sur les exemples informatifs. Des méthodes récentes ont émergé pour contrer cela. Bien que l'IPO (Iterative Preference Optimization) traite le surajustement général, sa régularisation uniforme peut être excessivement conservatrice. L'approche plus ciblée de la beta-DPO souffre de ses propres limites : son adaptation au niveau du lot applique une température unique et compromise à des paires à marges mixtes, sa règle de mise à jour linéaire peut produire des valeurs beta négatives instables, et son mécanisme de filtrage élimine des signaux d'entraînement potentiellement utiles. Dans ce travail, nous introduisons l'Optimisation Directe des Préférences Adaptative aux Marges (Margin-Adaptive Direct Preference Optimization, MADPO), une méthode qui offre une solution stable, préservant les données et opérant au niveau de chaque instance. MADPO utilise une approche pratique en deux étapes : elle entraîne d'abord un modèle de récompense pour estimer les marges de préférence, puis utilise ces marges pour appliquer un poids continu et adaptatif à la perte DPO pour chaque échantillon d'entraînement individuel. Ce schéma de réajustement crée une marge cible efficace qui est amplifiée pour les paires difficiles et atténuée pour les paires faciles, permettant un contrôle granulaire du signal d'apprentissage. Nous fournissons une analyse théorique complète, démontrant que MADPO possède un paysage d'optimisation bien comporté et est robuste aux erreurs d'estimation du modèle de récompense. Nous validons notre théorie par des expériences sur une tâche de génération de sentiments, où MADPO surpasse de manière constante et significative les méthodes de référence sur des ensembles de données de qualité variable. Elle atteint des gains de performance allant jusqu'à +33,3 % sur des données de haute qualité et +10,5 % sur des données de faible qualité par rapport à la meilleure méthode concurrente. Nos résultats établissent MADPO comme une approche plus robuste et plus rigoureuse pour l'alignement des préférences.
Nous présentons Equilibrium Matching (EqM), un cadre de modélisation générative construit à partir d'une perspective de dynamique d'équilibre. EqM abandonne les dynamiques conditionnées par le temps et non-équilibrées des modèles génératifs traditionnels basés sur la diffusion et les flux, et apprend plutôt le gradient d'équilibre d'un paysage énergétique implicite. Grâce à cette approche, nous pouvons adopter un processus d'échantillonnage basé sur l'optimisation lors de l'inférence, où les échantillons sont obtenus par descente de gradient sur le paysage appris, avec des tailles de pas ajustables, des optimiseurs adaptatifs et un calcul adaptatif. EqM surpasse empiriquement les performances de génération des modèles de diffusion/flux, atteignant un FID de 1,90 sur ImageNet 256×256. EqM est également justifié théoriquement pour apprendre et échantillonner à partir de la variété de données. Au-delà de la génération, EqM est un cadre flexible qui gère naturellement des tâches incluant le débruitage d'images partiellement bruitées, la détection de données hors distribution (OOD) et la composition d'images. En remplaçant les vitesses conditionnées par le temps par un paysage d'équilibre unifié, EqM offre un pont plus étroit entre les modèles de flux et les modèles basés sur l'énergie, ainsi qu'une voie simple vers l'inférence pilotée par l'optimisation.
Les grands modèles de langage (LLM) offrent des perspectives prometteuses en tant qu'assistants scientifiques, mais les agents existants reposent soit uniquement sur l'évolution algorithmique, soit sur une recherche approfondie en isolation, deux approches qui présentent des limites critiques. L'évolution algorithmique pure, comme dans AlphaEvolve, dépend exclusivement des connaissances internes des LLM et atteint rapidement un plateau dans des domaines complexes, tandis que la recherche pure propose des idées sans validation, aboutissant à des solutions irréalistes ou impossibles à mettre en œuvre. Nous présentons DeepEvolve, un agent qui intègre la recherche approfondie à l'évolution algorithmique, combinant la récupération de connaissances externes, l'édition de code inter-fichiers et le débogage systématique dans une boucle itérative pilotée par des retours d'expérience. Chaque itération propose non seulement de nouvelles hypothèses, mais les affine, les implémente et les teste, évitant ainsi les améliorations superficielles et les sur-affinements improductifs. Sur neuf benchmarks en chimie, mathématiques, biologie, sciences des matériaux et brevets, DeepEvolve améliore systématiquement l'algorithme initial, produisant de nouveaux algorithmes exécutables avec des gains soutenus. En comblant le fossé entre l'évolution non guidée et la recherche sans ancrage, DeepEvolve fournit un cadre fiable pour faire progresser la découverte d'algorithmes scientifiques. Notre code est disponible à l'adresse https://github.com/liugangcode/deepevolve.
Les systèmes RAG (Retrieval-Augmented Generation) et les agents web sont de plus en plus évalués sur des tâches de recherche approfondie multi-étapes, mais les pratiques actuelles souffrent de deux limitations majeures. Premièrement, la plupart des benchmarks divulguent le chemin de raisonnement dans le texte de la question, permettant aux modèles de suivre des indices superficiels plutôt que de découvrir des chaînes de raisonnement de manière autonome. Deuxièmement, l'évaluation se réduit généralement à un taux de réussite unique, ce qui condense des comportements divers en un seul score et masque si les échecs proviennent d'une recherche inadéquate, d'une mauvaise utilisation des connaissances ou d'un refus inapproprié. Pour résoudre ces problèmes, nous présentons WebDetective, un benchmark de questions multi-étapes sans indices, associé à un bac à sable contrôlé de Wikipédia qui assure une traçabilité complète des actions du modèle, ainsi qu'un cadre d'évaluation holistique qui distingue la suffisance de la recherche, l'utilisation des connaissances et le comportement de refus. Notre évaluation de 25 modèles de pointe révèle des faiblesses systématiques dans toutes les architectures : les modèles peinent à utiliser les connaissances malgré des preuves suffisantes et montrent un refus approprié quasi absent lorsque les preuves manquent. Ces tendances mettent en lumière un écart fondamental : les systèmes actuels excellent à exécuter des chemins de raisonnement donnés, mais échouent lorsqu'il s'agit de les découvrir. Nous développons un workflow agentique, EvidenceLoop, qui cible explicitement les défis identifiés par notre benchmark, intégrant des boucles de vérification et un suivi systématique des preuves qui améliorent à la fois les capacités de recherche et de synthèse. Cette base de référence démontre que le cadre diagnostique de WebDetective peut guider des améliorations architecturales concrètes, établissant notre benchmark comme un outil essentiel pour développer des systèmes de raisonnement véritablement autonomes plutôt que des agents suivant des schémas prédéfinis.
La plupart des benchmarks existants pour la compréhension de la vision égocentrique se concentrent principalement sur des scénarios diurnes, négligeant les conditions de faible luminosité qui sont inévitables dans les applications réelles. Pour explorer cette lacune, nous présentons EgoNight, le premier benchmark complet pour la vision égocentrique nocturne, avec la réponse à des questions visuelles (VQA) comme tâche centrale. Une caractéristique clé d'EgoNight est l'introduction de vidéos alignées jour-nuit, qui améliorent la qualité des annotations nocturnes en utilisant les données diurnes et révèlent des écarts de performance clairs entre les conditions d'éclairage. Pour y parvenir, nous collectons à la fois des vidéos synthétiques rendues par Blender et des enregistrements du monde réel, en veillant à ce que les scènes et les actions soient visuellement et temporellement alignées. En exploitant ces vidéos appariées, nous construisons EgoNight-VQA, soutenu par un moteur d'auto-étiquetage nocturne augmenté par les données diurnes et affiné par une vérification humaine approfondie. Chaque paire question-réponse est vérifiée en double par des annotateurs pour garantir sa fiabilité. Au total, EgoNight-VQA contient 3658 paires question-réponse réparties sur 90 vidéos, couvrant 12 types de questions variés, avec plus de 300 heures de travail humain. Les évaluations des modèles de langage multimodaux de pointe (MLLMs) révèlent des baisses de performance substantielles lors du passage du jour à la nuit, soulignant les défis du raisonnement dans des conditions de faible luminosité. Au-delà de la VQA, EgoNight introduit également deux tâches auxiliaires, la recherche de correspondance jour-nuit et l'estimation de la profondeur égocentrique la nuit, qui explorent davantage les limites des modèles existants. Nous croyons qu'EgoNight-VQA fournit une base solide pour faire progresser la recherche en vision égocentrique axée sur les applications et pour développer des modèles qui généralisent à travers les domaines d'éclairage. Toutes les données et le code seront rendus disponibles après acceptation.
Le déploiement d'agents d'IA autonomes dans des domaines sensibles, tels que les soins de santé, introduit des risques critiques pour la sécurité, la sûreté et la confidentialité. Ces agents peuvent s'écarter des objectifs de l'utilisateur, enfreindre les politiques de gestion des données ou être compromis par des attaques adverses. Atténuer ces dangers nécessite un mécanisme permettant de garantir formellement que les actions d'un agent respectent des contraintes de sécurité prédéfinies, un défi que les systèmes existants ne parviennent pas à relever pleinement. Nous présentons VeriGuard, un cadre novateur qui offre des garanties de sécurité formelles pour les agents basés sur des modèles de langage (LLM) grâce à une architecture en deux étapes conçue pour une robustesse et une vérifiabilité accrues. La première étape, hors ligne, implique un processus de validation approfondi. Elle commence par clarifier l'intention de l'utilisateur pour établir des spécifications de sécurité précises. VeriGuard synthétise ensuite une politique comportementale et la soumet à des tests ainsi qu'à une vérification formelle pour prouver sa conformité à ces spécifications. Ce processus itératif affine la politique jusqu'à ce qu'elle soit jugée correcte. Par la suite, la deuxième étape assure une surveillance en ligne des actions, où VeriGuard fonctionne comme un moniteur en temps réel pour valider chaque action proposée par l'agent par rapport à la politique pré-vérifiée avant son exécution. Cette séparation entre la validation exhaustive hors ligne et la surveillance légère en ligne permet d'appliquer pratiquement des garanties formelles, offrant ainsi une sauvegarde robuste qui améliore considérablement la fiabilité des agents LLM.
La Conversation de Soutien Émotionnel (CSE) joue un rôle essentiel dans l’atténuation du stress psychologique et la fourniture de valeur émotionnelle par le dialogue. Bien que les études récentes se soient principalement concentrées sur l’augmentation des données et la construction de corpus synthétiques, elles négligent souvent les processus cognitifs de raisonnement plus profonds qui sous-tendent un soutien émotionnel efficace. Pour combler cette lacune, nous proposons CARE, un cadre novateur qui renforce le raisonnement dans la CSE sans recourir à des données synthétiques à grande échelle. CARE exploite l’ensemble d’entraînement original de la CSE pour guider les modèles dans la génération de réponses logiquement cohérentes et bienveillantes, améliorant ainsi explicitement le raisonnement cognitif. Sur cette base, nous utilisons ensuite l’apprentissage par renforcement pour affiner et renforcer le processus de raisonnement. Les résultats expérimentaux démontrent que CARE améliore significativement à la fois la solidité logique et la qualité de soutien des réponses, faisant progresser le développement de systèmes de soutien émotionnel empathiques, robustes sur le plan cognitif et proches de l’humain.
Bien que la quantification post-entraînement soit largement adoptée pour le déploiement efficace des grands modèles de langage, les mécanismes sous-jacents à la robustesse de la quantification restent mal compris. Nous menons une analyse approfondie de la dégradation due à la quantification à travers les trajectoires d'entraînement de modèles de langage open-source allant jusqu'à 32 milliards de paramètres et 15 000 milliards de tokens d'entraînement, afin d'évaluer avec précision la relation entre les dynamiques d'entraînement et les performances de quantification. Notre découverte principale est que les erreurs de quantification dans les entraînements à grande échelle sont influencées par une interaction complexe entre le taux d'apprentissage et d'autres hyperparamètres d'entraînement. Plus précisément, une fois que les taux d'apprentissage décroissent, la perte de validation et l'erreur de quantification divergent, largement indépendamment de l'échelle des données d'entraînement. Pour étudier les interventions sur les dynamiques d'entraînement et identifier des configurations spécifiques pouvant moduler favorablement la robustesse de la quantification, nous entraînons nos propres modèles dans des expériences contrôlées jusqu'à 100 milliards de tokens. Nos résultats remettent en question l'hypothèse selon laquelle l'augmentation de l'échelle des données compromet intrinsèquement l'efficacité de la quantification, démontrant plutôt que des interventions stratégiques sur les hyperparamètres d'entraînement peuvent améliorer la qualité de la quantification à grande échelle.
La segmentation d'objets vidéo par référence (RVOS) nécessite de segmenter des objets spécifiques dans une vidéo guidée par une description en langage naturel. Le défi central de la RVOS consiste à ancrer des concepts linguistiques abstraits sur un ensemble spécifique de pixels et à les segmenter continuellement à travers la dynamique complexe d'une vidéo. Face à cette difficulté, les travaux antérieurs ont souvent décomposé la tâche en un pipeline pragmatique de « localisation puis segmentation ». Cependant, cette conception en cascade crée un goulot d'étranglement informationnel en simplifiant la sémantique en indices géométriques grossiers (par exemple, un point), et peine à maintenir la cohérence temporelle, car le processus de segmentation est souvent découplé de l'ancrage linguistique initial. Pour surmonter ces limitations fondamentales, nous proposons FlowRVS, un nouveau cadre qui reconceptualise la RVOS comme un problème de flux continu conditionnel. Cela nous permet d'exploiter les forces inhérentes des modèles T2V pré-entraînés, le contrôle granulaire des pixels, l'alignement sémantique texte-vidéo et la cohérence temporelle. Au lieu de générer conventionnellement à partir du bruit vers un masque ou de prédire directement un masque, nous reformulons la tâche en apprenant une déformation directe guidée par le langage, allant de la représentation holistique d'une vidéo à son masque cible. Notre approche générative en une seule étape atteint de nouveaux résultats de pointe sur tous les principaux benchmarks de RVOS. Plus précisément, nous obtenons un J&F de 51,1 sur MeViS (+1,6 par rapport au SOTA précédent) et de 73,3 sur Ref-DAVIS17 en zéro-shot (+2,7), démontrant le potentiel significatif de la modélisation des tâches de compréhension vidéo comme des processus de déformation continue.
Les modèles de langage de grande taille (LLMs) sont sujets à l'hallucination, c'est-à-dire à la génération d'énoncés plausibles mais factuellement incorrects. Ce travail explore les origines intrinsèques et architecturales de ce mode de défaillance à travers trois contributions principales. Premièrement, pour permettre un suivi fiable des échecs sémantiques internes, nous proposons le traçage sémantique distributionnel (Distributional Semantics Tracing, DST), un cadre unifié qui intègre des techniques d'interprétabilité établies pour produire une carte causale du raisonnement d'un modèle, en traitant le sens comme une fonction du contexte (sémantique distributionnelle). Deuxièmement, nous identifions la couche du modèle à laquelle une hallucination devient inévitable, en déterminant une couche d'engagement spécifique où les représentations internes du modèle divergent irréversiblement de la factualité. Troisièmement, nous identifions le mécanisme sous-jacent à ces échecs. Nous observons un conflit entre des voies de calcul distinctes, que nous interprétons à travers la théorie des processus doubles : une voie associative heuristique rapide (similaire au Système 1) et une voie contextuelle lente et délibérée (similaire au Système 2), conduisant à des modes de défaillance prévisibles tels que les détournements de raccourcis de raisonnement. La capacité de notre cadre à quantifier la cohérence de la voie contextuelle révèle une forte corrélation négative (rho = -0,863) avec les taux d'hallucination, impliquant que ces échecs sont des conséquences prévisibles de faiblesses sémantiques internes. Le résultat est une explication mécanistique de comment, quand et pourquoi les hallucinations se produisent au sein de l'architecture Transformer.
La régression par processus gaussien (GP) offre une stratégie pour accélérer la recherche de points selle sur des surfaces d'énergie de haute dimension en réduisant le nombre d'évaluations nécessaires de l'énergie et de ses dérivées par rapport aux coordonnées atomiques. Cependant, la surcharge computationnelle liée à l'optimisation des hyperparamètres peut être importante et rendre l'approche inefficace. Des échecs peuvent également survenir si la recherche s'aventure trop loin dans des régions mal représentées par le modèle GP. Ici, ces défis sont résolus en utilisant des mesures de transport optimal géométriquement adaptées et une stratégie d'élagage active basée sur une somme des distances de Wasserstein-1 pour chaque type d'atome dans un échantillonnage des points les plus éloignés, sélectionnant un sous-ensemble de taille fixe de configurations géométriquement diversifiées pour éviter l'augmentation rapide du coût des mises à jour du GP à mesure que davantage d'observations sont effectuées. La stabilité est renforcée par une métrique invariante par permutation qui fournit un rayon de confiance fiable pour l'arrêt précoce et une pénalité de barrière logarithmique pour la croissance de la variance du signal. Ces modifications algorithmiques motivées physiquement démontrent leur efficacité en réduisant de plus de moitié le temps de calcul moyen sur un ensemble de 238 configurations difficiles issues d'un ensemble de données précédemment publié de réactions chimiques. Avec ces améliorations, l'approche GP est établie comme un algorithme robuste et scalable pour accélérer la recherche de points selle lorsque l'évaluation de l'énergie et des forces atomiques nécessite un effort computationnel significatif.
Les modèles d'intégration vision-langage (VLMs) sont généralement pré-entraînés avec des fenêtres de texte courtes (<77 tokens), ce qui impose la troncation des légendes longues. Cependant, la distribution des légendes biomédicales issues de la littérature open source à grande échelle révèle qu'une grande partie des légendes dépasse largement 77 tokens. À cette fin, nous étudions l'impact du pré-entraînement sur les légendes biomédicales longues en étendant la longueur de contexte des encodeurs de texte dans les VLMs. Nous constatons qu'un contexte plus long (permettant ainsi une supervision supplémentaire fournie dans les légendes longues) est corrélé à de meilleures performances en matière de recherche et de classification. Sur la base de cette observation, nous introduisons BIOMEDICA-LongCAP, un ensemble de données de 1 million de paires image-légende enrichies de descriptions contextuelles issues d'articles en texte intégral, offrant une supervision textuelle plus longue et supplémentaire. En utilisant BIOMEDICA-LongCAP, nous entraînons BMC-LongCLIP, un VLM biomédical à long contexte doté d'un encodeur de texte prenant en charge des fenêtres allant jusqu'à 512 tokens. Notre modèle étend la capacité de contexte par un facteur de 6,6, réduisant le gaspillage de tokens de 55 % à seulement 2,2 %. Sur les benchmarks de recherche de légendes longues, BMC-LongCLIP atteint des gains absolus allant jusqu'à +30 % en Recall@1 et des améliorations moyennes de +2 % en classification, tout en convergeant plus rapidement que les modèles à contexte court. Nos résultats démontrent que la modélisation à long contexte est une direction prometteuse pour faire progresser les VLMs biomédicaux.
Les déploiements de grands modèles de langage dans le monde réel (par exemple, les systèmes d'IA conversationnelle, les assistants de génération de code) génèrent naturellement une abondance de signaux implicites d'insatisfaction des utilisateurs (DSAT), car ces derniers itèrent pour obtenir de meilleures réponses à travers des affinements, des corrections et des préférences exprimées, tandis que les retours explicites de satisfaction (SAT) sont rares. Les approches existantes d'apprentissage des préférences sont mal alignées avec ce profil de données, car elles reposent sur des annotations humaines coûteuses ou supposent une abondance de réponses positives. Dans cet article, nous introduisons DRIFT (Dissatisfaction-Refined Iterative preFerence Training), qui ancre l'entraînement sur les signaux DSAT du monde réel et échantillonne dynamiquement les positifs à partir de la politique en évolution. Empiriquement, les modèles DRIFT entraînés sur les ensembles de données WildFeedback du monde réel et les ensembles de données synthétiques UltraFeedback atteignent jusqu'à +6,23 % (7B) / +7,61 % (14B) sur le score de tâche WildBench et jusqu'à +8,95 % (7B) / +12,29 % (14B) sur le taux de victoire AlpacaEval2 par rapport aux modèles de base, surpassant des méthodes de référence solides telles que DPO itératif et SPIN. À plus grande échelle, les améliorations sont particulièrement marquées : les modèles 14B entraînés avec DRIFT surpassent GPT-4o-mini sur WildBench. Une analyse plus approfondie montre que DRIFT préserve également la capacité d'exploration, produisant des solutions plus diversifiées à haut rendement plutôt que de s'effondrer vers des sous-ensembles étroits. Théoriquement, nous démontrons que cette conception préserve les marges de préférence et évite la dégénérescence du gradient. Ces résultats montrent que DRIFT est une recette efficace et évolutive pour l'après-entraînement dans le monde réel, exploitant le signal le plus abondant et informatif. Le code et les données sont disponibles à l'adresse https://github.com/cacayaya/DRIFT.git.
Les données de code ont démontré leur capacité à améliorer les capacités de raisonnement des grands modèles de langage (LLM), mais il reste incertain quels aspects du code en sont les principaux responsables. Nous explorons cette question à l'aide d'un cadre systématique et centré sur les données. Nous construisons des ensembles d'instructions parallèles dans dix langages de programmation et appliquons des perturbations contrôlées qui perturbent sélectivement les propriétés structurelles ou sémantiques du code. Nous affinons ensuite des LLM issus de cinq familles de modèles et huit échelles sur chaque variante et évaluons leurs performances sur des tâches de langage naturel, de mathématiques et de code. À travers 3 331 expériences, nos résultats montrent que les LLM sont plus vulnérables aux perturbations structurelles qu'aux perturbations sémantiques, en particulier sur les tâches de mathématiques et de code. Des abstractions appropriées comme le pseudocode et les organigrammes peuvent être aussi efficaces que le code, tout en encodant la même information avec moins de tokens sans adhérer à la syntaxe originale, ce qui peut souvent maintenir ou même améliorer les performances. De manière remarquable, même un code corrompu avec des signaux trompeurs reste compétitif lorsque les régularités de surface persistent. Enfin, les styles syntaxiques influencent également les gains spécifiques aux tâches, avec Python favorisant le raisonnement en langage naturel et les langages de plus bas niveau comme Java et Rust favorisant les mathématiques. À travers notre cadre systématique, nous visons à fournir des insights sur la manière dont les différentes propriétés du code influencent le raisonnement et à éclairer la conception des données d'entraînement pour améliorer les capacités de raisonnement des LLM.
La performance des modèles d'apprentissage automatique dépend fortement des données d'entraînement. La rareté de jeux de données à grande échelle et bien annotés pose des défis importants dans la création de modèles robustes. Pour y remédier, les données synthétiques générées par des simulations et des modèles génératifs sont apparues comme une solution prometteuse, améliorant la diversité des jeux de données ainsi que la performance, la fiabilité et la résilience des modèles. Cependant, évaluer la qualité de ces données générées nécessite une métrique efficace. Cet article introduit la **Métrique de Qualité des Jeux de Données Synthétiques (SDQM)** pour évaluer la qualité des données dans les tâches de détection d'objets sans nécessiter la convergence de l'entraînement du modèle. Cette métrique permet une génération et une sélection plus efficaces des jeux de données synthétiques, répondant ainsi à un défi majeur dans les tâches de détection d'objets avec des ressources limitées. Dans nos expériences, la SDQM a démontré une forte corrélation avec les scores de **moyenne de Précision Moyenne (mAP)** de YOLOv11, un modèle de détection d'objets de premier plan, alors que les métriques précédentes ne montraient que des corrélations modérées ou faibles. De plus, elle fournit des insights actionnables pour améliorer la qualité des jeux de données, minimisant ainsi le besoin d'entraînements itératifs coûteux. Cette métrique scalable et efficace établit une nouvelle norme pour l'évaluation des données synthétiques. Le code de la SDQM est disponible à l'adresse suivante : https://github.com/ayushzenith/SDQM.
La reconnaissance automatique d'accords (ACR) via des modèles d'apprentissage profond a progressivement atteint une précision prometteuse, mais deux défis majeurs subsistent. Premièrement, les travaux antérieurs se sont principalement concentrés sur l'ACR dans le domaine audio, tandis que l'ACR pour la musique symbolique (par exemple, les partitions) a reçu une attention limitée en raison de la rareté des données. Deuxièmement, les méthodes existantes négligent encore des stratégies alignées sur les pratiques analytiques humaines en musique. Pour relever ces défis, nous apportons deux contributions : (1) nous introduisons POP909-CL, une version améliorée du jeu de données POP909 avec un contenu aligné sur le tempo et des étiquettes corrigées manuellement pour les accords, les temps, les tonalités et les signatures temporelles ; et (2) nous proposons BACHI, un modèle de reconnaissance d'accords symbolique qui décompose la tâche en différentes étapes de décision, à savoir la détection des limites et le classement itératif de la racine de l'accord, de la qualité et de la basse (inversion). Ce mécanisme reflète les pratiques humaines d'entraînement auditif. Les expériences démontrent que BACHI atteint des performances de pointe en reconnaissance d'accords sur des références de musique classique et pop, avec des études d'ablation validant l'efficacité de chaque module.
Les modèles d'IA sont de plus en plus utilisés pour l'analyse et la visualisation de données, mais les benchmarks abordent rarement les tâches spécifiques aux nuages de points, limitant ainsi les insights sur leurs performances. Pour combler cette lacune concernant l'un des types de graphiques les plus courants, nous introduisons un ensemble de données synthétiques annotées de plus de 18 000 nuages de points, générés par six générateurs de données et 17 designs de graphiques, ainsi qu'un benchmark basé sur celui-ci. Nous évaluons des modèles propriétaires d'OpenAI et de Google en utilisant l'approche N-shot prompting sur cinq tâches distinctes dérivées des annotations des boîtes englobantes des clusters, de leurs coordonnées centrales et des coordonnées des points aberrants. Les modèles d'OpenAI et Gemini 2.5 Flash, en particulier lorsqu'ils sont guidés par des exemples, constituent des options viables pour le décompte des clusters et, dans le cas de Flash, des points aberrants (précision de 90 % ou plus). Cependant, les résultats pour les tâches liées à la localisation sont insatisfaisants : la précision et le rappel sont proches ou inférieurs à 50 %, à l'exception de Flash dans l'identification des points aberrants (65,01 %). Par ailleurs, l'impact du design du graphique sur la performance semble être un facteur secondaire, mais il est recommandé d'éviter les nuages de points avec des ratios d'aspect larges (16:9 et 21:9) ou ceux colorés de manière aléatoire. Les matériaux supplémentaires sont disponibles à l'adresse https://github.com/feedzai/biy-paper.
Au cours des deux dernières décennies, la reconnaissance des émotions dans la parole (SER, pour *Speech Emotion Recognition*) a suscité un intérêt croissant. Pour entraîner les systèmes SER, les chercheurs collectent des bases de données de parole émotionnelle annotées par des évaluateurs externes ou internes, qui sélectionnent des émotions parmi des catégories prédéfinies. Cependant, les désaccords entre évaluateurs sont fréquents. Les méthodes conventionnelles traitent ces désaccords comme du bruit, en agrégeant les étiquettes en une cible de consensus unique. Bien que cela simplifie la SER en une tâche à étiquette unique, cela ignore la subjectivité inhérente à la perception humaine des émotions. Cette thèse remet en question ces hypothèses et pose les questions suivantes : (1) Les évaluations émotionnelles minoritaires doivent-elles être écartées ? (2) Les systèmes SER doivent-ils apprendre uniquement à partir de la perception de quelques individus ? (3) Les systèmes SER doivent-ils prédire une seule émotion par échantillon ? Les études psychologiques montrent que la perception des émotions est subjective et ambiguë, avec des frontières émotionnelles qui se chevauchent. Nous proposons de nouvelles perspectives de modélisation et d'évaluation : (1) Conserver toutes les évaluations émotionnelles et les représenter sous forme de distributions d'étiquettes douces. Les modèles entraînés sur les évaluations individuelles des annotateurs et optimisés conjointement avec les systèmes SER standards améliorent les performances sur les tests étiquetés par consensus. (2) Redéfinir l'évaluation de la SER en incluant toutes les données émotionnelles et en permettant la co-occurrence d'émotions (par exemple, triste et en colère). Nous proposons une « règle inclusive » qui agrège toutes les évaluations pour maximiser la diversité dans la représentation des étiquettes. Les expériences sur quatre bases de données d'émotions en anglais montrent une performance supérieure à celle des méthodes de majorité et de pluralité. (3) Construire une matrice de pénalisation pour décourager les combinaisons d'émotions improbables pendant l'entraînement. Son intégration dans les fonctions de perte améliore encore les performances. Globalement, l'intégration des évaluations minoritaires, de multiples annotateurs et des prédictions multi-émotions permet d'obtenir des systèmes SER plus robustes et alignés sur la perception humaine.
Les modèles Vision-Langage-Action (VLA) ont démontré des performances remarquables dans le contrôle des robots. Cependant, ils restent fondamentalement limités dans les tâches nécessitant une grande précision en raison de leur paradigme d'inférence unique. Bien que les approches de mise à l'échelle au moment du test utilisant des vérificateurs externes aient montré des résultats prometteurs, elles nécessitent un entraînement supplémentaire et échouent à généraliser à des conditions non vues. Nous proposons Masking Distribution Guided Selection (MG-Select), un nouveau cadre de mise à l'échelle au moment du test pour les VLA qui exploite les propriétés internes du modèle sans nécessiter d'entraînement supplémentaire ni de modules externes. Notre approche utilise la divergence de KL par rapport à une distribution de référence de tokens d'action comme métrique de confiance pour sélectionner l'action optimale parmi plusieurs candidats. Nous introduisons une distribution de référence générée par le même VLA mais avec des états et des conditions linguistiques masqués aléatoirement en entrée, garantissant une incertitude maximale tout en restant alignée avec la distribution de la tâche cible. De plus, nous proposons une stratégie d'entraînement conjointe qui permet au modèle d'apprendre à la fois les distributions conditionnelles et inconditionnelles en appliquant du dropout aux états et aux conditions linguistiques, améliorant ainsi davantage la qualité de la distribution de référence. Nos expériences démontrent que MG-Select permet des améliorations significatives des performances, notamment une amélioration de 28 %/35 % dans les tâches en distribution/ hors distribution du monde réel, ainsi qu'un gain relatif de 168 % sur les tâches de pick-and-place de RoboCasa entraînées avec 30 démonstrations.
Les modèles de langage multimodaux (LLM) récents ont montré des promesses dans la réponse à des questions visuelles basées sur des graphiques, mais leurs performances déclinent fortement sur des graphiques non annotés, ceux nécessitant une interprétation visuelle précise plutôt que de s'appuyer sur des raccourcis textuels. Pour remédier à cela, nous introduisons ChartAgent, un cadre agentique novateur qui effectue explicitement un raisonnement visuel directement dans le domaine spatial du graphique. Contrairement au raisonnement en chaîne de pensée textuel, ChartAgent décompose itérativement les requêtes en sous-tâches visuelles et manipule activement et interagit avec les images de graphiques à travers des actions spécialisées telles que l'ajout d'annotations, le recadrage de régions (par exemple, la segmentation de tranches de camembert, l'isolation de barres), et la localisation d'axes, en utilisant une bibliothèque d'outils de vision spécifiques aux graphiques pour accomplir chaque sous-tâche. Ce processus de raisonnement itératif reflète étroitement les stratégies cognitives humaines pour la compréhension des graphiques. ChartAgent atteint une précision de pointe sur les benchmarks ChartBench et ChartX, surpassant les méthodes précédentes avec un gain absolu allant jusqu'à 16,07 % globalement et 17,31 % sur les requêtes non annotées et numériquement intensives. De plus, nos analyses montrent que ChartAgent est (a) efficace sur divers types de graphiques, (b) obtient les scores les plus élevés à travers différents niveaux de complexité visuelle et de raisonnement, et (c) sert de cadre plug-and-play qui améliore les performances sur divers LLM sous-jacents. Notre travail est parmi les premiers à démontrer un raisonnement visuellement ancré pour la compréhension des graphiques en utilisant des agents multimodaux augmentés par des outils.
Les techniques modernes d'alignement des préférences, telles que l'échantillonnage Best-of-N (BoN), reposent sur des modèles de récompense entraînés avec des données de comparaison par paires. Bien qu'elles soient efficaces pour apprendre les préférences relatives, cette approche ne parvient pas à capturer un signal d'acceptabilité des réponses, rendant les systèmes vulnérables à la sélection de la moins mauvaise parmi de nombreuses options inacceptables. Ce problème est particulièrement critique pour les prompts difficiles, où le risque de telles fausses acceptations augmente avec le nombre d'échantillons. Dans cet article, nous abordons cette lacune critique en matière de fiabilité en introduisant un nouveau cadre de collecte et de modélisation des données. En enrichissant les données de préférence avec une option externe, inspirée des modèles de choix discrets, nous entraînons un modèle de récompense capable de distinguer non seulement ce qui est meilleur, mais aussi ce qui est suffisamment bon. Nous exploitons cette capacité pour créer une stratégie d'inférence adaptative, appelée best of mini-N in-loop, qui partitionne le budget de génération en boucles séquentielles avec une condition de sortie anticipée calibrée. Nos expériences montrent que, lorsqu'elle est ajustée comme une barrière de sécurité pour l'alignement, elle réduit les échecs de fiabilité de 70 %, et lorsqu'elle est ajustée comme un accélérateur d'inférence, elle améliore la vitesse d'inférence moyenne de plus de 22 % dans le cadre de l'analyse de sentiment IMDB. Nous proposons ainsi un cadre méthodologique et flexible permettant aux praticiens de gérer explicitement le compromis entre fiabilité et efficacité computationnelle.
Les travaux récents sur l'évaluation du contexte et de la mémoire se sont principalement concentrés sur des instances conversationnelles, mais la nécessité d'évaluer la mémoire dans des environnements d'entreprise dynamiques est cruciale pour son application efficace. Nous présentons MEMTRACK, un benchmark conçu pour évaluer la mémoire à long terme et le suivi d'état dans des environnements d'agents multi-plateformes. MEMTRACK modélise des workflows organisationnels réalistes en intégrant des événements asynchrones à travers plusieurs plateformes de communication et de productivité telles que Slack, Linear et Git. Chaque instance du benchmark fournit une chronologie entrelacée entre les plateformes, avec des informations bruyantes, conflictuelles, croisées ainsi qu'une compréhension et exploration potentielles du codebase/système de fichiers. Par conséquent, notre benchmark teste des capacités de mémoire telles que l'acquisition, la sélection et la résolution de conflits. Nous constituons le jeu de données MEMTRACK à la fois par une conception manuelle pilotée par des experts et par une synthèse basée sur des agents évolutifs, générant des scénarios écologiquement valides ancrés dans les processus réels de développement logiciel. Nous introduisons des métriques pertinentes pour la Correctitude, l'Efficacité et la Redondance qui capturent l'efficacité des mécanismes de mémoire au-delà de la simple performance en question-réponse. Les expériences menées sur les modèles de langage de pointe (SoTA LLMs) et les backends de mémoire révèlent des défis dans l'utilisation de la mémoire sur de longues périodes, la gestion des dépendances inter-plateformes et la résolution des contradictions. Notamment, le modèle GPT-5 le plus performant n'atteint qu'un score de Correctitude de 60\% sur MEMTRACK. Ce travail fournit un cadre extensible pour faire progresser la recherche sur l'évaluation des agents augmentés par la mémoire, au-delà de l'accent actuel sur les configurations conversationnelles, et pose les bases pour l'évaluation de la mémoire multi-agent et multi-plateforme dans des environnements organisationnels complexes.
Les soins capillaires constituent une activité quotidienne essentielle, mais ils restent inaccessibles aux personnes à mobilité réduite et posent des défis aux systèmes robotiques autonomes en raison de la structure physique fine et des dynamiques complexes des cheveux. Dans ce travail, nous présentons DYMO-Hair, un système robotique de soins capillaires basé sur un modèle. Nous introduisons un nouveau paradigme d'apprentissage des dynamiques adapté aux quantités volumétriques telles que les cheveux, reposant sur un mécanisme d'édition d'état latent conditionné par l'action, couplé à un espace latent 3D compact de coiffures variées pour améliorer la généralisation. Cet espace latent est pré-entraîné à grande échelle à l'aide d'un nouveau simulateur de physique capillaire, permettant une généralisation à des coiffures jamais vues auparavant. En utilisant le modèle de dynamique avec un planificateur Model Predictive Path Integral (MPPI), DYMO-Hair est capable de réaliser des coiffures visuelles conditionnées par un objectif. Les expériences en simulation démontrent que le modèle de dynamique de DYMO-Hair surpasse les méthodes de référence dans la capture des déformations locales pour des coiffures variées et inédites. DYMO-Hair surpasse également les méthodes de référence dans des tâches de coiffure en boucle fermée sur des coiffures inédites, avec une erreur géométrique finale moyenne inférieure de 22 % et un taux de réussite supérieur de 42 % par rapport au système de pointe. Les expériences en monde réel montrent une transférabilité en zero-shot de notre système à des perruques, obtenant des succès constants sur des coiffures inédites et difficiles où le système de pointe échoue. Ensemble, ces résultats posent les bases d'un système robotique de soins capillaires basé sur un modèle, progressant vers une coiffure robotique plus généralisable, flexible et accessible dans des environnements physiques non contraints. Plus de détails sont disponibles sur notre page de projet : https://chengyzhao.github.io/DYMOHair-web/.
Distiller les traces de pensée d'un modèle de langage de grande taille (LLM) doté de capacités de raisonnement dans un modèle plus petit s'est avéré efficace. Cependant, il existe un manque de travaux sur la manière dont les performances des modèles évoluent en fonction de la quantité de données de distillation. Dans cette étude, nous examinons la tendance de mise à l'échelle de la distillation de compétences en programmation compétitive sur deux petits LLM non raisonnants. Nous validons l'hypothèse selon laquelle il existe une vallée du raisonnement en code : les performances en aval sur la programmation compétitive diminuent d'abord à mesure que la quantité de données augmente, puis augmentent de manière plus rapide qu'une progression log-linéaire. Après avoir identifié cette tendance, nous affinons davantage les modèles à deux étapes différentes de distillation sur les mêmes données pour étayer les conclusions sur leurs phases d'apprentissage respectives. Nous constatons qu'à travers les étapes dans les régimes de données faibles et moyennement faibles, les petits modèles bénéficient significativement de questions de codage plus faciles que de questions plus difficiles. Nous découvrons également, de manière surprenante, que la correction des sorties dans les données d'entraînement n'a aucun impact sur les résultats de la distillation. Notre travail représente une avancée dans la compréhension des dynamiques d'entraînement de la distillation du raisonnement en code au-delà de l'intuition.
Les grands modèles de langage (LLMs) excellent dans de nombreuses tâches de traitement du langage naturel (NLP), mais restent sujets aux hallucinations, limitant la confiance dans leurs applications réelles. Nous présentons HalluGuard, un petit modèle de raisonnement (SRM) de 4 milliards de paramètres conçu pour atténuer les hallucinations dans la génération augmentée par récupération (RAG). HalluGuard classe les paires document-assertion comme étant fondées ou hallucinées et produit des justifications fondées sur des preuves pour assurer la transparence. Notre approche combine (i) un ensemble de données synthétique indépendant du domaine, dérivé de FineWeb et affiné par une curation en plusieurs étapes et une réforme des données, (ii) des assertions synthétiques fondées et hallucinées, et (iii) un réglage fin basé sur les préférences avec l'optimisation des préférences par rapport aux cotes pour distiller le raisonnement des grands modèles dans une architecture plus petite. Sur le sous-ensemble RAGTruth du benchmark LLM-AggreFact, HalluGuard atteint une précision équilibrée (BAcc) de 84,0%, rivalisant avec des modèles spécialisés tels que MiniCheck (7B ; 84,0%) et Granite Guardian 3.3 (8B ; 82,2%) tout en utilisant environ la moitié de leurs paramètres. Sur l'ensemble du benchmark, il atteint une BAcc de 75,7%, égalant des LLMs généralistes plus grands comme GPT-4o (75,9%). Nous publierons HalluGuard et les ensembles de données sous licence Apache 2.0 après acceptation.