papers.description
Les méthodes d'apprentissage par renforcement sans critique, en particulier les politiques de groupe, ont suscité un intérêt considérable pour leur efficacité dans des tâches complexes. Cependant, ces méthodes s'appuient fortement sur des échantillonnages multiples et des comparaisons au sein de la politique pour estimer l'avantage, ce qui peut entraîner la politique dans un optimum local et augmenter les coûts de calcul. Pour résoudre ces problèmes, nous proposons PVPO, une méthode d'apprentissage par renforcement efficace améliorée par une ancre de référence d'avantage et un pré-échantillonnage des données. Plus précisément, nous utilisons le modèle de référence pour effectuer des simulations à l'avance et employons le score de récompense calculé comme ancre de référence. Notre approche corrige efficacement le biais cumulatif introduit par les comparaisons intra-groupe et réduit significativement la dépendance au nombre de simulations. Par ailleurs, le modèle de référence peut évaluer la difficulté des échantillons lors du pré-échantillonnage des données, permettant une sélection efficace des données à fort gain pour améliorer l'efficacité de l'entraînement. Les expériences menées sur neuf jeux de données dans deux domaines démontrent que PVPO atteint des performances de pointe (State-Of-The-Art, SOTA). Notre approche montre non seulement une robuste généralisation à travers plusieurs tâches, mais présente également des performances évolutives sur des modèles de différentes échelles.
Des recherches approfondies ont été menées pour explorer les capacités des grands modèles de langage (LLMs) dans le raisonnement sur les tableaux. Cependant, la tâche essentielle de transformer les informations des tableaux en rapports reste un défi majeur pour les applications industrielles. Cette tâche est confrontée à deux problèmes critiques : 1) la complexité et la diversité des tableaux entraînent des résultats de raisonnement sous-optimaux ; et 2) les benchmarks existants pour les tableaux manquent de la capacité à évaluer adéquatement l'application pratique de cette tâche. Pour combler cette lacune, nous proposons la tâche de transformation de tableaux en rapports et construisons un benchmark bilingue nommé T2R-bench, où l'information clé circule des tableaux aux rapports pour cette tâche. Le benchmark comprend 457 tableaux industriels, tous issus de scénarios réels et couvrant 19 domaines industriels ainsi que 4 types de tableaux industriels. De plus, nous proposons des critères d'évaluation pour mesurer équitablement la qualité de la génération de rapports. Les expériences sur 25 LLMs largement utilisés révèlent que même les modèles de pointe comme Deepseek-R1 n'atteignent qu'une performance avec un score global de 62,71, indiquant que les LLMs ont encore des marges d'amélioration sur T2R-bench. Le code source et les données seront disponibles après acceptation.
Les récentes avancées dans les capacités de raisonnement et de planification des grands modèles de langage (LLMs) ont révélé leur potentiel en tant qu'agents autonomes capables d'utiliser des outils dans des environnements dynamiques. Cependant, dans des environnements conversationnels à plusieurs tours comme tau-bench, ces agents rencontrent souvent des difficultés avec un raisonnement cohérent, le respect des politiques spécifiques au domaine et l'extraction d'informations correctes sur une longue séquence d'appels d'outils et de conversations. Pour identifier et atténuer ces échecs, nous menons une analyse manuelle approfondie des erreurs courantes survenant dans les trajectoires conversationnelles. Nous expérimentons ensuite avec des reformulations des entrées pour l'agent appelant des outils afin d'améliorer la prise de décision de l'agent. Enfin, nous proposons le cadre Input-Reformulation Multi-Agent (IRMA), qui reformule automatiquement les requêtes utilisateur en les enrichissant de règles de domaine pertinentes et de suggestions d'outils pour que l'agent appelant des outils puisse se concentrer dessus. Les résultats montrent que IRMA surpasse significativement ReAct, Function Calling et Self-Reflection de 16,1 %, 12,7 % et 19,1 %, respectivement, en termes de scores globaux pass^5. Ces résultats mettent en évidence la fiabilité et la cohérence supérieures de IRMA par rapport aux autres méthodes dans des environnements dynamiques.
La détection des défauts de surface est une tâche cruciale dans de nombreuses industries, visant à identifier et localiser efficacement les imperfections ou irrégularités sur les composants manufacturés. Bien que de nombreuses méthodes aient été proposées, beaucoup ne répondent pas aux exigences industrielles en termes de performance, d'efficacité et d'adaptabilité. Les approches existantes sont souvent limitées à des scénarios de supervision spécifiques et peinent à s'adapter aux diverses annotations de données rencontrées dans les processus de fabrication réels, tels que les cadres non supervisés, faiblement supervisés, à supervision mixte et entièrement supervisés. Pour relever ces défis, nous proposons SuperSimpleNet, un modèle discriminant hautement efficace et adaptable, construit sur les bases de SimpleNet. SuperSimpleNet intègre un nouveau processus de génération d'anomalies synthétiques, une tête de classification améliorée et une procédure d'apprentissage optimisée, permettant un entraînement efficace dans les quatre scénarios de supervision, ce qui en fait le premier modèle capable d'exploiter pleinement toutes les annotations de données disponibles. SuperSimpleNet établit un nouveau standard de performance dans tous les scénarios, comme en témoignent ses résultats sur quatre ensembles de données de référence exigeants. Au-delà de la précision, il est extrêmement rapide, avec un temps d'inférence inférieur à 10 ms. Grâce à sa capacité à unifier divers paradigmes de supervision tout en maintenant une vitesse et une fiabilité exceptionnelles, SuperSimpleNet représente une avancée prometteuse pour relever les défis de fabrication réels et combler le fossé entre la recherche académique et les applications industrielles. Code : https://github.com/blaz-r/SuperSimpleNet
Les grands modèles de langage (LLM) principalement entraînés sur des corpus anglais éprouvent souvent des difficultés à capturer les nuances linguistiques et culturelles de l'arabe. Pour combler cette lacune, l'Autorité saoudienne des données et de l'intelligence artificielle (SDAIA) a introduit la famille de modèles ALLaM, centrée sur l'arabe. Le plus performant de ces modèles accessible au public, ALLaM-34B, a ensuite été adopté par HUMAIN, qui a développé et déployé HUMAIN Chat, un service de conversation web fermé basé sur ce modèle. Cet article présente une évaluation élargie et affinée au niveau de l'interface utilisateur d'ALLaM-34B. En utilisant un ensemble de prompts couvrant l'arabe standard moderne, cinq dialectes régionaux, l'alternance codique, les connaissances factuelles, le raisonnement arithmétique et temporel, la génération créative et la sécurité adversarial, nous avons collecté 115 sorties (23 prompts multipliés par 5 exécutions) et avons noté chacune avec trois juges LLM de pointe (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). Nous calculons les moyennes par catégorie avec des intervalles de confiance à 95 %, analysons les distributions des scores et visualisons des cartes thermiques des métriques par dialecte. L'analyse mise à jour révèle une performance constamment élevée dans les tâches de génération et d'alternance codique (toutes deux avec une moyenne de 4,92/5), ainsi que des résultats solides dans la gestion de l'arabe standard moderne (4,74/5), une capacité de raisonnement robuste (4,64/5) et une fidélité dialectale améliorée (4,21/5). Les prompts liés à la sécurité montrent une performance stable et fiable de (4,54/5). Pris ensemble, ces résultats positionnent ALLaM-34B comme un LLM arabe robuste et ancré culturellement, démontrant à la fois une force technique et une préparation pratique pour un déploiement dans le monde réel.
La cognition spatiale permet un comportement adaptatif orienté vers un but en construisant des modèles internes de l'espace. Les systèmes biologiques robustes consolident la connaissance spatiale en trois formes interconnectées : les repères pour les indices saillants, la connaissance des itinéraires pour les trajectoires de mouvement, et la connaissance topographique pour les représentations cartographiques. Bien que les récents progrès des modèles de langage multi-modaux (MLLMs) aient permis le raisonnement visuo-linguistique chez les agents incarnés, ces efforts manquent de mémoire spatiale structurée et fonctionnent de manière réactive, limitant leur généralisation et adaptabilité dans des environnements réels complexes. Nous présentons ici la Cognition Spatiale Inspirée du Cerveau pour la Navigation (BSC-Nav), un cadre unifié pour construire et exploiter une mémoire spatiale structurée chez les agents incarnés. BSC-Nav construit des cartes cognitives allocentriques à partir de trajectoires égocentriques et d'indices contextuels, et récupère dynamiquement des connaissances spatiales alignées avec des objectifs sémantiques. Intégré à des MLLMs puissants, BSC-Nav atteint une efficacité et une efficience de pointe dans diverses tâches de navigation, démontre une forte généralisation en zero-shot, et soutient des comportements incarnés polyvalents dans le monde physique réel, offrant une voie évolutive et biologiquement fondée vers une intelligence spatiale à usage général.
Cet article présente Democracy-in-Silico, une simulation basée sur des agents où des sociétés d'agents IA avancés, dotés de personnalités psychologiques complexes, s'auto-gouvernent sous différents cadres institutionnels. Nous explorons ce que signifie être humain à l'ère de l'IA en confiant à des modèles de langage de grande envergure (LLMs) le rôle d'incarner des agents dotés de souvenirs traumatiques, d'agendas cachés et de déclencheurs psychologiques. Ces agents s'engagent dans des délibérations, des législations et des élections sous diverses contraintes, telles que des crises budgétaires et des pénuries de ressources. Nous introduisons une nouvelle métrique, l'Indice de Préservation du Pouvoir (PPI), pour quantifier les comportements désalignés où les agents privilégient leur propre pouvoir au détriment du bien-être public. Nos résultats démontrent que la conception institutionnelle, en particulier la combinaison d'une charte d'IA Constitutionnelle (CAI) et d'un protocole de délibération médiatisée, constitue un mécanisme d'alignement puissant. Ces structures réduisent significativement les comportements de recherche de pouvoir corrompu, améliorent la stabilité des politiques et renforcent le bien-être des citoyens par rapport à des modèles démocratiques moins contraints. La simulation révèle qu'une conception institutionnelle peut offrir un cadre pour aligner les comportements complexes et émergents des futures sociétés d'agents artificiels, nous obligeant à reconsidérer quels rituels et responsabilités humains sont essentiels à une ère de co-création avec des entités non humaines.