papers.description
Le raisonnement est un processus cognitif fondamental sous-jacent à l'inférence, à la résolution de problèmes et à la prise de décision. Si les grands modèles de langage (LLM) démontrent de solides capacités de raisonnement dans des environnements fermés, ils rencontrent des difficultés dans des environnements ouverts et dynamiques. Le raisonnement agentique marque un changement de paradigme en reconsidérant les LLM comme des agents autonomes qui planifient, agissent et apprennent par une interaction continue. Dans cette synthèse, nous organisons le raisonnement agentique selon trois dimensions complémentaires. Premièrement, nous caractérisons la dynamique environnementale à travers trois couches : le raisonnement agentique fondamental, qui établit les capacités centrales d'un agent unique incluant la planification, l'utilisation d'outils et la recherche dans des environnements stables ; le raisonnement agentique auto-évolutif, qui étudie comment les agents améliorent ces capacités par le retour d'information, la mémoire et l'adaptation ; et le raisonnement collectif multi-agents, qui étend l'intelligence à des cadres collaboratifs impliquant la coordination, le partage des connaissances et des objectifs communs. À travers ces couches, nous distinguons le raisonnement en contexte, qui met à l'échelle l'interaction au moment du test par une orchestration structurée, du raisonnement post-entraînement, qui optimise les comportements via l'apprentissage par renforcement et le réglage fin supervisé. Nous passons également en revue les cadres de raisonnement agentique représentatifs à travers les applications et benchmarks du monde réel, incluant les sciences, la robotique, les soins de santé, la recherche autonome et les mathématiques. Cette synthèse intègre les méthodes de raisonnement agentique en une feuille de route unifiée faisant le pont entre la pensée et l'action, et esquisse les défis ouverts et les orientations futures, incluant la personnalisation, l'interaction à long terme, la modélisation du monde, l'entraînement multi-agents scalable et la gouvernance pour un déploiement réel.
Les agents de recherche approfondie (Deep Research Agents, DRA) génèrent des rapports riches en citations via une recherche et une synthèse en plusieurs étapes. Pourtant, les benchmarks existants ciblent principalement des environnements textuels uniquement ou des questions-réponses multimodales de courte forme, omettant l'utilisation de preuves multimodales de bout en bout. Nous présentons MMDeepResearch-Bench (MMDR-Bench), un benchmark de 140 tâches conçues par des experts réparties dans 21 domaines, où chaque tâche fournit un ensemble image-texte pour évaluer la compréhension multimodale et la génération de rapports ancrée sur les citations. Comparé aux configurations antérieures, MMDR-Bench met l'accent sur une synthèse de type rapport avec une utilisation explicite des preuves, où les modèles doivent relier les artefacts visuels aux affirmations sourcées et maintenir la cohérence entre le récit, les citations et les références visuelles. Nous proposons en outre une pipeline d'évaluation unifiée et interprétable : l'Évaluation Adaptative Formula-LLM (FLAE) pour la qualité du rapport, l'Évaluation des Citations Alignée sur la Récupération Fiable (TRACE) pour l'alignement des preuves sur les citations, et le Contrôle d'Intégrité Aligné sur le Support Multimodal (MOSAIC) pour l'intégrité texte-visuel. Chacune produit des signaux granulaires qui soutiennent le diagnostic d'erreurs au-delà d'un simple score global. Des expériences sur 25 modèles de pointe révèlent des compromis systématiques entre la qualité de la génération, la rigueur des citations et l'ancrage multimodal, soulignant qu'une prose de qualité ne garantit pas à elle seule une utilisation fidèle des preuves et que l'intégrité multimodale reste un goulot d'étranglement clé pour les agents de recherche approfondie.
La rédaction de réponses aux rapports d'évaluation est une tâche cruciale qui exige plus qu'une maîtrise linguistique, car elle nécessite un alignement précis entre l'intention des évaluateurs et les détails du manuscrit. Les solutions actuelles traitent généralement ce problème comme une génération de texte directe, souffrant d'hallucinations, de critiques négligées et d'un manque de fondement vérifiable. Pour résoudre ces limitations, nous présentons RebuttalAgent, le premier cadre multi-agents qui reformule la génération de réponses comme une tâche de planification centrée sur les preuves. Notre système décompose les retours complexes en préoccupations atomiques et construit dynamiquement des contextes hybrides en synthétisant des résumés compressés avec du texte haute fidélité, tout en intégrant un module de recherche externe autonome et à la demande pour résoudre les préoccupations nécessitant une littérature externe. En générant un plan de réponse inspectable avant la rédaction, RebuttalAgent garantit que chaque argument est explicitement ancré dans des preuves internes ou externes. Nous validons notre approche sur le RebuttalBench proposé et démontrons que notre pipeline surpasse les bases de référence en couverture, fidélité et cohérence stratégique, offrant ainsi un assistant transparent et contrôlable pour le processus d'évaluation par les pairs. Le code sera publié.
Les modèles de génération vidéo ont considérablement fait progresser l'intelligence incarnée, ouvrant de nouvelles possibilités pour générer des données robotiques diversifiées qui capturent la perception, le raisonnement et l'action dans le monde physique. Cependant, la synthèse de vidéos de haute qualité reflétant fidèlement les interactions robotiques réelles reste difficile, et l'absence de référence standardisée limite les comparaisons équitables et les progrès. Pour combler cette lacune, nous présentons une référence robotique complète, RBench, conçue pour évaluer la génération vidéo orientée robotique à travers cinq domaines de tâches et quatre incarnations distinctes. Elle évalue à la fois la justesse au niveau de la tâche et la fidélité visuelle via des sous-métriques reproductibles, incluant la cohérence structurelle, la plausibilité physique et l'exhaustivité de l'action. L'évaluation de 25 modèles représentatifs met en lumière des déficiences significatives dans la génération de comportements robotiques physiquement réalistes. De plus, la référence atteint un coefficient de corrélation de Spearman de 0,96 avec les évaluations humaines, validant son efficacité. Bien que RBench fournisse l'outil nécessaire pour identifier ces déficiences, atteindre le réalisme physique nécessite de dépasser l'évaluation pour remédier à la pénurie critique de données d'entraînement de haute qualité. Motivés par ces constats, nous introduisons un pipeline de données raffiné en quatre étapes, aboutissant à RoVid-X, le plus grand ensemble de données robotiques open-source pour la génération vidéo avec 4 millions de clips vidéo annotés, couvrant des milliers de tâches et enrichi d'annotations complètes de propriétés physiques. Collectivement, cet écosystème synergique d'évaluation et de données établit une base solide pour l'évaluation rigoureuse et l'entraînement scalable des modèles vidéo, accélérant l'évolution de l'IA incarnée vers l'intelligence générale.
GutenOCR est une famille de frontaux OCR ancrés obtenus par affinage de Qwen2.5-VL-3B et Qwen2.5-VL-7B. Les modèles vision-langue résultants, à point de contrôle unique, exposent la lecture, la détection et l'ancrage via une interface unifiée et basée sur des invites. Entraînés sur des documents professionnels, des articles scientifiques et des données d'ancrage synthétiques, ces modèles prennent en charge la lecture de page entière et localisée avec des boîtes englobantes au niveau de la ligne et du paragraphe, ainsi que des requêtes conditionnelles du type « où se trouve x ? ». Nous introduisons un protocole d'évaluation d'OCR ancré et montrons que GutenOCR-7B multiplie par plus de deux le score composite d'OCR ancré de son modèle de base Qwen2.5-VL-7B sur 10,5 mille pages professionnelles et scientifiques retenues pour les tests (passant de 0,40 à 0,82). Sur Fox et OmniDocBench v1.5, notre approche améliore considérablement l'OCR au niveau des régions et des lignes ainsi que le rappel en détection de texte, mais révèle des compromis dans la linéarisation au niveau de la page, l'OCR guidé par la couleur et les mises en page riches en formules.
L'apprentissage par renforcement (RL) est central pour le post-entraînement, en particulier pour les modèles agentiels qui nécessitent des comportements de raisonnement spécialisés. Dans ce contexte, la fusion de modèles offre un mécanisme pratique pour intégrer plusieurs agents entraînés par RL sur différentes tâches en un modèle généraliste unique. Cependant, les méthodes de fusion existantes sont conçues pour le fine-tuning supervisé (SFT) et sont sous-optimales pour préserver les capacités spécifiques aux tâches sur les modèles agentiels entraînés par RL. La cause profonde est un décalage des vecteurs de tâche entre le RL et le SFT : le RL on-policy induit des vecteurs de tâche très épars et hétérogènes, tandis que la fusion de type SFT suppose implicitement des vecteurs de tâche denses et globalement comparables. Lorsque la moyenne globale standard est appliquée sous ce décalage, les vecteurs de tâche non chevauchants du RL, qui codent des comportements critiques spécifiques aux tâches, sont réduits et les mises à jour des paramètres sont diluées. Pour résoudre ce problème, nous proposons la Fusion d'Agents Renforcée (Reinforced Agent Merging, RAM), un cadre de fusion conscient de la distribution, explicitement conçu pour les modèles agentiels entraînés par RL. RAM démêle les mises à jour de paramètres partagées et uniques spécifiques aux tâches, en moyennant les composantes partagées tout en préservant et en re-dimensionnant sélectivement les composantes uniques pour contrer la dilution des mises à jour des paramètres. Les expériences menées sur plusieurs domaines d'agents et architectures de modèles démontrent que RAM surpasse non seulement les méthodes de fusion de référence, mais débloque également un potentiel synergique entre les agents pour atteindre des performances supérieures à celles des agents spécialisés dans leurs domaines respectifs.
Les systèmes de dialogue oral de bout en bout récents exploitent des tokenizers vocaux et des codecs audio neuronaux pour permettre aux LLMs d'opérer directement sur des représentations discrètes de la parole. Cependant, ces modèles présentent souvent une préservation limitée de l'identité du locuteur, entravant l'interaction vocale personnalisée. Dans ce travail, nous présentons Chroma 1.0, le premier modèle de dialogue oral de bout en bout open-source en temps réel qui combine à la fois une interaction à faible latence et un clonage vocal personnalisé de haute fidélité. Chroma atteint une latence de bout en bout inférieure à la seconde grâce à un planification entrelacée de tokens texte-audio (1:2) supportant la génération en flux, tout en maintenant une synthèse vocale personnalisée de haute qualité sur des conversations multi-tours. Nos résultats expérimentaux démontrent que Chroma obtient une amélioration relative de 10,96% en similarité du locuteur par rapport au niveau de référence humain, avec un Facteur Temps Réel (RTF) de 0,43, tout en conservant de solides capacités de raisonnement et de dialogue. Notre code et nos modèles sont disponibles publiquement à https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma et https://huggingface.co/FlashLabs/Chroma-4B.
Le prompt Chain-of-Thought (Chaîne de Pensée, CoT) a remporté un succès remarquable pour débloquer les capacités de raisonnement des Grands Modèles de Langage (LLM). Bien que le prompt CoT améliore le raisonnement, sa verbosité impose une surcharge computationnelle substantielle. Les travaux récents se concentrent souvent exclusivement sur l'alignement des résultats et manquent de supervision sur le processus de raisonnement intermédiaire. Ces lacunes obscurcissent l'analysabilité de la chaîne de raisonnement latente. Pour relever ces défis, nous présentons Render-of-Thought (Rendu de la Pensée, RoT), le premier cadre qui réifie la chaîne de raisonnement en rendant les étapes textuelles sous forme d'images, rendant ainsi le raisonnement latent explicite et traçable. Concrètement, nous utilisons les encodeurs visuels de modèles vision-langage (VLM) existants comme ancres sémantiques pour aligner les embeddings visuels avec l'espace textuel. Cette conception garantit une mise en œuvre plug-and-play sans entraîner de surcharge de pré-entraînement supplémentaire. Des expériences approfondies sur des benchmarks de raisonnement mathématique et logique démontrent que notre méthode atteint une compression de 3 à 4 fois le nombre de tokens et une accélération substantielle de l'inférence par rapport au CoT explicite. De plus, elle maintient des performances compétitives par rapport aux autres méthodes, validant la faisabilité de ce paradigme. Notre code est disponible à l'adresse https://github.com/TencentBAC/RoT.
L'extraction de documents est un composant central des flux de travail numériques, mais les modèles vision-langue (VLM) existants privilégient majoritairement les langues à ressources abondantes. Le thaï présente des défis supplémentaires en raison de la complexité de son écriture non latine, de l'absence de délimiteurs explicites entre les mots et de la prévalence de documents réels très peu structurés, ce qui limite l'efficacité des modèles open-source actuels. Cet article présente Typhoon OCR, un VLM ouvert pour l'extraction de documents conçu pour le thaï et l'anglais. Le modèle est affiné à partir d'architectes de base vision-langue en utilisant un jeu de données d'entraînement centré sur le thaï. Le jeu de données est développé grâce à un pipeline de construction de données en plusieurs étapes qui combine la ROC traditionnelle, la restructuration par VLM et des données synthétiques soigneusement sélectionnées. Typhoon OCR est un framework unifié capable de transcription de texte, de reconstruction de la mise en page et de maintien de la cohérence structurelle au niveau du document. La dernière itération de notre modèle, Typhoon OCR V1.5, est un modèle compact et efficace à l'inférence conçu pour réduire la dépendance aux métadonnées et simplifier le déploiement. Des évaluations complètes sur diverses catégories de documents thaïlandais, incluant des rapports financiers, des formulaires gouvernementaux, des livres, des infographies et des documents manuscrits, montrent que Typhoon OCR atteint des performances comparables ou supérieures à celles de grands modèles propriétaires de pointe, malgré un coût computationnel substantiellement inférieur. Les résultats démontrent que les modèles de ROC vision-langue ouverts peuvent réaliser une extraction précise du texte et une reconstruction fidèle de la mise en page pour les documents thaïlandais, atteignant des performances comparables aux systèmes propriétaires tout en restant légers et déployables.
Les grands modèles encodeur-décodeur comme Whisper offrent une transcription hors ligne performante mais restent impraticables pour les applications en flux continu en raison de leur latence élevée. Cependant, en raison de l'accessibilité des modèles pré-entraînés, le paysage thaïlandais de la reconnaissance automatique de la parole reste dominé par ces architectures hors ligne, créant un déficit critique en solutions efficaces de traitement en flux continu. Nous présentons Typhoon ASR Real-time, un modèle Transducteur FastConformer de 115 millions de paramètres pour la reconnaissance vocale thaïlandaise à faible latence. Nous démontrons qu'une normalisation textuelle rigoureuse peut égaler l'impact de l'augmentation de la taille des modèles : notre modèle compact réalise une réduction de 45x du coût computationnel par rapport à Whisper Large-v3 tout en offrant une précision comparable. Notre pipeline de normalisation résout les ambiguïtés systémiques de la transcription thaïlandaise — incluant la verbalisation contextuelle des nombres et les marqueurs de répétition (mai yamok) — créant ainsi des cibles d'entraînement cohérentes. Nous introduisons également une approche d'apprentissage curriculaire en deux étapes pour l'adaptation au dialecte Isan (du nord-est) qui préserve les performances en thaï central. Pour relever les défis de reproductibilité en reconnaissance vocale thaïlandaise, nous publions le Benchmark Typhoon ASR, un ensemble de données étiquetées manuellement de référence avec des transcriptions conformes aux conventions linguistiques thaïlandaises établies, fournissant des protocoles d'évaluation standardisés pour la communauté scientifique.
Les systèmes agentiques sont récemment devenus le paradigme dominant pour la démonstration formelle de théorèmes, atteignant des performances remarquables en coordonnant plusieurs modèles et outils. Cependant, les approches existantes reposent souvent sur des pipelines spécifiques aux tâches et sur des démonstrateurs formels entraînés, limitant ainsi leur flexibilité et leur reproductibilité. Dans cet article, nous proposons un paradigme qui utilise directement un agent de codage général comme raisonneur mathématique formel. Ce paradigme est motivé par : (1) un agent de codage général fournit une interface naturelle pour des tâches de raisonnement diverses au-delà de la démonstration, (2) les performances peuvent être améliorées en remplaçant simplement le modèle de base sous-jacent, sans entraînement, et (3) MCP permet une extension flexible et un appel autonome d'outils spécialisés, évitant une conception complexe. Sur la base de ce paradigme, nous présentons Numina-Lean-Agent, qui combine Claude Code avec Numina-Lean-MCP pour permettre une interaction autonome avec Lean, la récupération de théorèmes pertinents, ainsi que des outils de démonstration informelle et de raisonnement auxiliaire. Utilisant Claude Opus 4.5 comme modèle de base, Numina-Lean-Agent résout tous les problèmes du Putnam 2025 (12 / 12), égalant ainsi le meilleur système propriétaire. Au-delà de l'évaluation sur benchmark, nous démontrons également sa généralité en collaborant avec des mathématiciens pour formaliser avec succès le théorème de Brascamp-Lieb. Nous publions Numina-Lean-Agent et toutes les solutions sur https://github.com/project-numina/numina-lean-agent.
La récupération d'information est en train d'être redéfinie par l'IA agentique, exigeant un raisonnement multimodal qui dépasse les paradigmes conventionnels basés sur la similarité. La Recherche d'Image Composée (CIR) illustre cette évolution, car chaque requête combine une image de référence avec des modifications textuelles, nécessitant une compréhension compositionnelle à travers les modalités. Bien que les méthodes de CIR basées sur les embeddings aient réalisé des progrès, elles restent limitées en perspective, capturant des indices multimodaux restreints et manquant de raisonnement sémantique. Pour résoudre ces limitations, nous présentons XR, un cadre multi-agent sans entraînement qui reformule la récupération comme un processus de raisonnement progressivement coordonné. Il orchestre trois types spécialisés d'agents : les agents d'imagination synthétisent les représentations cibles par génération multimodale, les agents de similarité effectuent un filtrage grossier via un appariement hybride, et les agents de question vérifient la cohérence factuelle par un raisonnement ciblé pour un filtrage fin. Grâce à une coordination multi-agent progressive, XR affine itérativement la récupération pour satisfaire à la fois les contraintes sémantiques et visuelles des requêtes, obtenant un gain allant jusqu'à 38% par rapport aux bases de référence fortes sans et avec entraînement sur FashionIQ, CIRR et CIRCO, tandis que les ablations montrent que chaque agent est essentiel. Le code est disponible : https://01yzzyu.github.io/xr.github.io/.
Les agents financiers alimentés par de grands modèles de langage (LLM) sont de plus en plus déployés pour l'analyse d'investissement, l'évaluation des risques et la prise de décision automatisée, où leurs capacités à planifier, invoquer des outils et manipuler un état mutable introduisent de nouveaux risques de sécurité dans des environnements financiers à haut risque et fortement réglementés. Cependant, les évaluations de sécurité existantes se concentrent largement sur la conformité du contenu au niveau du modèle linguistique ou sur des configurations d'agents abstraites, ne parvenant pas à capturer les risques liés à l'exécution découlant des flux opérationnels réels et des actions modifiant l'état. Pour combler cette lacune, nous proposons FinVault, le premier benchmark de sécurité ancré dans l'exécution pour les agents financiers, comprenant 31 scénarios en bac à sable pilotés par des cas réglementaires avec des bases de données accessibles en écriture et des contraintes explicites de conformité, ainsi que 107 vulnérabilités réelles et 963 cas de test couvrant systématiquement l'injection de prompt, le jailbreaking, les attaques adaptées au domaine financier, ainsi que des entrées bénignes pour l'évaluation des faux positifs. Les résultats expérimentaux révèlent que les mécanismes de défense existants restent inefficaces dans des configurations réalistes d'agents financiers, avec des taux de réussite d'attaque (ASR) moyens atteignant encore 50,0% sur les modèles les plus avancés et restant non négligeables même pour les systèmes les plus robustes (ASR 6,7%), soulignant la transférabilité limitée des conceptions de sécurité actuelles et la nécessité de défenses plus solides spécifiques au secteur financier. Notre code est disponible à l'adresse https://github.com/aifinlab/FinVault.
Nous présentons RoboBrain 2.5, un modèle fondateur d'intelligence artificielle incarnée de nouvelle génération qui fait progresser la perception générale, le raisonnement spatial et la modélisation temporelle grâce à un apprentissage extensif sur une supervision spatiotemporelle de haute qualité. Reposant sur son prédécesseur, RoboBrain 2.5 introduit deux améliorations majeures de capacités. Concrètement, il déverrouille le Raisonnement Spatial 3D Précis en passant d'un ancrage relatif aux pixels 2D à une prédiction de coordonnées consciente de la profondeur et à une compréhension des contraintes métriques absolues, générant des traces complètes de manipulation 3D sous forme de séquences ordonnées de points-clés respectant des contraintes physiques. Complétant cette précision spatiale, le modèle établit une Estimation de Valeur Temporelle Dense qui fournit une prédiction dense de la progression consciente des étapes et une compréhension de l'état d'exécution sous différents points de vue, produisant des signaux de retour stables pour l'apprentissage en aval. Ensemble, ces améliorations étendent le cadre vers une intelligence incarnée plus ancrée physiquement et consciente de l'exécution pour des manipulations complexes et à granularité fine. Le code et les points de contrôle sont disponibles sur le site du projet : https://superrobobrain.github.io
Nous identifions un phénomène nouveau dans les modèles de langage : le fine-tuning bénin des modèles de pointe peut entraîner un effondrement de la confidentialité. Nous constatons que des schémas divers et subtils dans les données d'entraînement peuvent dégrader la confidentialité contextuelle, notamment l'optimisation pour l'utilité, l'exposition à des informations utilisateur, les dialogues émotionnels et subjectifs, et le débogage de code imprimant des variables internes, entre autres. Les modèles fine-tunés perdent leur capacité à raisonner sur les normes de confidentialité contextuelle, partagent des informations de manière inappropriée avec des outils et violent les limites de la mémoire entre les contextes. L'effondrement de la confidentialité est un « échec silencieux » car les modèles maintiennent des performances élevées sur les benchmarks standards de sécurité et d'utilité tout en présentant de graves vulnérabilités en matière de vie privée. Nos expériences montrent des preuves d'un effondrement de la confidentialité sur six modèles (à poids fermé et ouvert), cinq jeux de données de fine-tuning (données réelles et contrôlées) et deux catégories de tâches (agentiques et basées sur la mémoire). Notre analyse mécanistique révèle que les représentations de la confidentialité sont particulièrement fragiles au fine-tuning, contrairement aux caractéristiques pertinentes pour la tâche qui sont préservées. Nos résultats révèlent une lacune critique dans les évaluations de sécurité actuelles, en particulier pour le déploiement d'agents spécialisés.
Nous présentons Motion 3-to-4, un cadre de traitement direct pour la synthèse d'objets dynamiques 4D de haute qualité à partir d'une vidéo monoculaire unique et d'un maillage de référence 3D optionnel. Bien que les avancées récentes aient considérablement amélioré la génération de contenu 2D, vidéo et 3D, la synthèse 4D reste difficile en raison du manque de données d'apprentissage et de l'ambiguïté inhérente à la reconstruction de la géométrie et du mouvement à partir d'une vue monoculaire. Motion 3-to-4 relève ces défis en décomposant la synthèse 4D en une génération de forme 3D statique et une reconstruction du mouvement. En utilisant un maillage de référence canonique, notre modèle apprend une représentation latente compacte du mouvement et prédit des trajectoires de vertex par image pour reconstruire une géométrie complète et temporellement cohérente. Un transformeur adaptable image par image assure en outre une robustesse face aux différentes longueurs de séquence. Les évaluations sur des benchmarks standards et un nouveau jeu de données avec une géométrie de vérité terrain précise démontrent que Motion 3-to-4 offre une fidélité et une cohérence spatiale supérieures aux travaux antérieurs. La page du projet est disponible à l'adresse https://motion3-to-4.github.io/.
De nombreuses langues parlées, y compris l'anglais, présentent une grande variété de dialectes et d'accents, ce qui rend le contrôle de l'accent une capacité importante pour les modèles flexibles de synthèse vocale. Les systèmes de synthèse actuels génèrent généralement une parole accentuée en se basant sur des représentations vectorielles de locuteurs associées à des accents spécifiques. Bien qu'efficace, cette approche offre une interprétabilité et une contrôlabilité limitées, car ces représentations codent également des traits tels que le timbre et l'émotion. Dans cette étude, nous analysons l'interaction entre les représentations du locuteur et des règles phonologiques motivées linguistiquement pour la synthèse de parole accentuée. En utilisant l'anglais américain et britannique comme étude de cas, nous mettons en œuvre des règles pour le flapping, la rhoticité et les correspondances vocaliques. Nous proposons le taux de décalage de phonème, une nouvelle métrique quantifiant la force avec laquelle les représentations préservent ou remplacent les transformations basées sur des règles. Les expériences montrent que combiner des règles avec des représentations produit des accents plus authentiques, tandis que les représentations peuvent atténuer ou écraser les règles, révélant un enchevêtrement entre l'accent et l'identité du locuteur. Nos résultats soulignent les règles comme un levier pour le contrôle de l'accent et un cadre pour évaluer le désenchevêtrement dans la génération de la parole.
Ce travail fait progresser l'exploration autonome des robots en intégrant un raisonnement sémantique au niveau de l'agent à un contrôle local rapide. Nous présentons FARE, un cadre hiérarchique d'exploration autonome qui intègre un grand modèle de langage (LLM) pour le raisonnement global avec une politique d'apprentissage par renforcement (RL) pour la prise de décision locale. FARE suit un paradigme de pensée rapide-lente. Le module LLM de pensée lente interprète une description textuelle concise de l'environnement inconnu et synthétise une stratégie d'exploration au niveau de l'agent, qui est ensuite ancrée en une séquence de points de passage globaux via un graphe topologique. Pour améliorer encore l'efficacité du raisonnement, ce module emploie un mécanisme d'élagage basé sur la modularité qui réduit les structures redondantes du graphe. Le module RL de pensée rapide exécute l'exploration en réagissant aux observations locales tout en étant guidé par les points de passage globaux générés par le LLM. La politique RL est en outre façonnée par un terme de récompense qui encourage l'adhésion aux points de passage globaux, permettant un comportement en boucle fermée cohérent et robuste. Cette architecture découple le raisonnement sémantique de la décision géométrique, permettant à chaque module d'opérer à son échelle temporelle et spatiale appropriée. Dans des environnements simulés exigeants, nos résultats montrent que FARE réalise des améliorations substantielles de l'efficacité d'exploration par rapport à l'état de l'art. Nous déployons en outre FARE sur du matériel et le validons dans un environnement de bâtiment complexe et à grande échelle de 200m×130m.
Les grands modèles de langage ont démontré une utilité profonde dans le domaine médical. Cependant, leur application à la navigation autonome dans les dossiers médicaux électroniques (DME) reste limitée par une dépendance à des entrées présélectionnées et à des tâches de récupération simplifiées. Pour combler le fossé entre les paramètres expérimentaux idéalisés et les environnements cliniques réalistes, nous présentons AgentEHR. Ce benchmark met au défi des agents d'exécuter des tâches décisionnelles complexes, telles que le diagnostic et la planification des traitements, nécessitant un raisonnement interactif à long terme directement dans des bases de données brutes et fortement bruitées. En abordant ces tâches, nous identifions que les méthodes de synthèse existantes souffrent inévitablement d'une perte d'information critique et d'une continuité de raisonnement fragmentée. Pour résoudre ce problème, nous proposons RetroSum, un nouveau cadre unifiant un mécanisme de synthèse rétrospective avec une stratégie d'expérience évolutive. En réévaluant dynamiquement l'historique des interactions, le mécanisme rétrospectif empêche la perte d'information en contexte long et assure une cohérence logique ininterrompue. De plus, la stratégie évolutive comble l'écart de domaine en récupérant l'expérience accumulée depuis une banque de mémoire. Des évaluations empiriques approfondies démontrent que RetroSum obtient des gains de performance allant jusqu'à 29,16 % par rapport à des bases de référence compétitives, tout en réduisant significativement les erreurs d'interaction totales jusqu'à 92,3 %.
Les modèles d'apprentissage de représentation d'images sont généralement conçus pour soit la reconnaissance, soit la génération. Diverses formes d'apprentissage contrastif aident les modèles à apprendre à convertir les images en embeddings utiles pour la classification, la détection et la segmentation. D'autre part, les modèles peuvent être entraînés à reconstruire des images avec des pertes pixel, perceptuelles et adversaires afin d'apprendre un espace latent utile pour la génération d'images. Nous cherchons à unifier ces deux approches avec un modèle pionnier qui apprend des représentations simultanément utiles pour la reconnaissance et la génération. Nous entraînons notre modèle comme un hyper-réseau pour la représentation neuronale implicite, qui apprend à mapper les images vers des poids de modèle pour une reconstruction rapide et précise. Nous intégrons en outre notre hyper-réseau RNI avec la distillation de connaissances pour améliorer sa généralisation et ses performances. Au-delà de la conception novatrice de l'entraînement, le modèle apprend également un espace d'embedding compressé sans précédent, offrant des performances exceptionnelles pour diverses tâches visuelles. Le modèle complet rivalise avec les résultats de pointe en apprentissage de représentation d'images, tout en permettant des capacités génératives grâce à ses embeddings compressés de haute qualité. Le code est disponible à l'adresse https://github.com/tiktok/huvr.
Les grands modèles de langage présentent une sensibilité surprenante à la structure des prompts, mais les mécanismes sous-jacents à cette sensibilité restent mal compris. Dans ce travail, nous menons une investigation approfondie d'un cas frappant : dans les questions à choix multiples, le fait de placer le contexte avant les questions et options (CQO) surpasse l'ordre inverse (QOC) de plus de 14 points de pourcentage, de manière constante sur un large éventail de modèles et de jeux de données. Par une analyse architecturale systématique, nous identifions l'attention causale comme mécanisme central : dans les prompts QOC, le masque causal empêche les tokens d'options d'accéder au contexte, créant un goulot d'étranglement informationnel où le contexte devient invisible pour les options.
Les pipelines CI/CD modernes intégrant du code généré par des agents présentent une défaillance structurelle dans l'attribution des responsabilités. Les décisions sont exécutées via des processus d'approbation formellement corrects, mais aucune entité ne possède à la fois l'autorité pour approuver ces décisions et la capacité épistémique d'en comprendre le fondement de manière significative. Nous définissons cette condition comme un *vide de responsabilité* : un état dans lequel des décisions sont prises, mais où la responsabilité ne peut être attribuée parce que l'autorité et la capacité de vérification ne coïncident pas. Nous montrons qu'il ne s'agit pas d'une déviation de processus ou d'un défaut technique, mais d'une propriété structurelle des déploiements où le débit de génération des décisions dépasse la capacité de vérification humaine limitée. Nous identifions une limite d'échelle sous des hypothèses de déploiement standard, incluant la génération parallèle par des agents, la validation basée sur l'intégration continue (CI) et des portails d'approbation humaine individualisés. Au-delà d'un certain seuil de débit, la vérification cesse de fonctionner comme un critère décisionnel et est remplacée par une approbation ritualisée basée sur des signaux indirects. La responsabilité personnalisée devient structurellement inaccessible dans ce régime. Nous caractérisons en outre une dynamique d'amplification par la CI, selon laquelle l'augmentation de la couverture de validation automatisée accroît la densité des signaux indirects sans restaurer la capacité humaine. Sous des contraintes fixes de temps et d'attention, cela accélère le déchargement cognitif au sens large et élargit l'écart entre l'approbation formelle et la compréhension épistémique. Une automatisation supplémentaire amplifie donc, plutôt qu'elle n'atténue, le vide de responsabilité. Nous concluons qu'à moins que les organisations ne reconçoivent explicitement les limites décisionnelles ou ne réattribuent la responsabilité, en la détachant des décisions individuelles au profit d'une propriété par lots ou au niveau du système, le vide de responsabilité demeure un mode de défaillance invisible mais persistant dans les déploiements d'agents à grande échelle.
Les agents d'IA web tels que ChatGPT Agent et GenSpark sont de plus en plus utilisés pour les tâches routinières sur le web, mais ils reposent encore sur des invites textuelles, manquent de détection proactive de l'intention utilisateur et n'offrent aucun support pour l'analyse interactive des données et la prise de décision. Nous présentons WebSeek, une extension navigateur à initiative mixte qui permet aux utilisateurs de découvrir et d'extraire des informations depuis des pages web pour ensuite construire, transformer et affiner de manière flexible des artefacts de données tangibles - tels que des tableaux, des listes et des visualisations - le tout au sein d'un canevas interactif. Dans cet environnement, les utilisateurs peuvent réaliser des analyses - incluant des transformations de données comme le jointure de tableaux ou la création de visualisations - tandis qu'une IA intégrée propose à la fois un guidage contextuel proactif et de l'automatisation, tout en répondant aux requêtes explicites des utilisateurs. Une étude d'exploration utilisateur (N=15) utilisant WebSeek comme sonde révèle les stratégies d'analyse diversifiées des participants, soulignant leur désir de transparence et de contrôle durant la collaboration humain-IA.
L'équation de Korteweg-de Vries (KdV) constitue un modèle fondamental en physique des ondes non linéaires, décrivant l'équilibre entre l'étalement dispersif et le raidissement non linéaire qui donne naissance aux solitons. Cet article présente **sangkuriang**, une bibliothèque Python open-source pour résoudre cette équation en utilisant une discrétisation spatiale pseudo-spectrale de Fourier couplée à une intégration temporelle adaptative d'ordre élevé. L'implémentation tire parti de la compilation à la volée (JIT) pour l'efficacité computationnelle tout en conservant une accessibilité à des fins pédagogiques. La validation couvre des scénarios progressivement complexes incluant la propagation d'un soliton isolé, des configurations symétriques à deux ondes, des collisions par dépassement entre ondes d'amplitudes différentes et des interactions à trois corps. La conservation des invariants classiques est surveillée tout au long des simulations, les écarts restant faibles pour tous les cas tests. Les vitesses de soliton mesurées correspondent étroitement aux prédictions théoriques basées sur la relation amplitude-vitesse caractéristique des systèmes intégrables. Des diagnostics complémentaires issus de la théorie de l'information et de l'analyse de récurrence confirment que les solutions calculées préservent la structure régulière de l'espace des phases attendue pour une dynamique complètement intégrable. Le solveur produit des données dans des formats scientifiques standard compatibles avec les outils d'analyse courants et génère des visualisations de l'évolution spatio-temporelle des ondes. En alliant la précision numérique à une accessibilité pratique sur des ressources computationnelles modestes, **sangkuriang** offre une plateforme adaptée à la fois aux démonstrations en classe des phénomènes ondulatoires non linéaires et à la recherche exploratoire sur la dynamique des solitons.
Bien que de nombreuses recherches se soient concentrées sur les explications de l'IA pour étayer les décisions dans des tâches complexes de recherche d'information telles que la vérification des faits, le rôle des preuves est étonnamment peu étudié. Dans notre étude, nous avons systématiquement fait varier le type d'explication, la certitude de la prédiction de l'IA et l'exactitude des conseils du système d'IA pour des participants non-experts, qui évaluaient la véracité d'affirmations et de prédictions du système d'IA. Les participants avaient la possibilité d'inspecter facilement les preuves sous-jacentes. Nous avons constaté que les participants se fiaient systématiquement aux preuves pour valider les affirmations de l'IA dans toutes les conditions expérimentales. Lorsque des explications en langage naturel étaient présentées, les preuves étaient moins sollicitées, sauf lorsque ces explications semblaient insuffisantes ou erronées. Les données qualitatives suggèrent que les participants tentaient d'inférer la fiabilité des sources des preuves, bien que leur identité ait été délibérément omise. Nos résultats démontrent que les preuves sont un élément clé dans l'évaluation par les individus de la fiabilité des informations présentées par un système d'IA et, combinées à des explications en langage naturel, elles offrent un soutien précieux à la prise de décision. Des recherches supplémentaires sont urgemment nécessaires pour comprendre comment les preuves devraient être présentées et comment les individus interagissent avec elles en pratique.
Bien que les grands modèles de langage (LLM) aient démontré de bonnes performances en raisonnement mathématique et de bon sens monolingues, ils restent peu fiables pour les applications de raisonnement médical multilingue, ce qui entrave leur déploiement dans les contextes de soins de santé multilingues. Nous abordons ce problème en introduisant d'abord CUREMED-BENCH, un jeu de données multilingue de haute qualité pour le raisonnement médical, comprenant des requêtes de raisonnement à réponse ouverte avec une seule réponse vérifiable, couvrant treize langues, y compris des langues sous-représentées telles que l'amharique, le yoruba et le swahili. En s'appuyant sur ce jeu de données, nous proposons CURE-MED, un cadre d'apprentissage par renforcement informé par un curriculum qui intègre un fine-tuning supervisé sensible au code-switching et une optimisation de politique relative au groupe pour améliorer conjointement la justesse logique et la stabilité linguistique. Sur treize langues, notre approche surpasse constamment les bases de référence solides et s'adapte efficacement, atteignant 85,21 % de cohérence linguistique et 54,35 % de justesse logique à 7 milliards de paramètres, et 94,96 % de cohérence linguistique et 70,04 % de justesse logique à 32 milliards de paramètres. Ces résultats soutiennent un raisonnement médical multilingue fiable et équitable dans les LLM. Le code et le jeu de données sont disponibles à l'adresse https://cure-med.github.io/