papers.description
L'incitation par Chaîne de Pensée (Chain-of-Thought, CoT) a démontré son efficacité pour améliorer les performances des Modèles de Langage à Grande Échelle (Large Language Models, LLM) sur diverses tâches. Avec cette approche, les LLM semblent produire des étapes de raisonnement similaires à celles des humains avant de fournir des réponses (appelé raisonnement CoT), ce qui conduit souvent à l'impression qu'ils s'engagent dans des processus inférentiels délibérés. Cependant, certaines découvertes initiales suggèrent que le raisonnement CoT pourrait être plus superficiel qu'il n'y paraît, ce qui nous motive à explorer davantage. Dans cet article, nous étudions le raisonnement CoT à travers une perspective de distribution de données et examinons si ce raisonnement reflète un biais inductif structuré appris à partir de données intra-distribution, permettant au modèle de générer conditionnellement des chemins de raisonnement qui s'approchent de ceux observés pendant l'entraînement. Ainsi, son efficacité est fondamentalement limitée par le degré de divergence de distribution entre les données d'entraînement et les requêtes de test. Avec cette perspective, nous disséquons le raisonnement CoT selon trois dimensions : la tâche, la longueur et le format. Pour explorer chaque dimension, nous concevons DataAlchemy, un environnement isolé et contrôlé pour entraîner des LLM à partir de zéro et les tester systématiquement sous diverses conditions de distribution. Nos résultats révèlent que le raisonnement CoT est un mirage fragile qui disparaît lorsqu'il est poussé au-delà des distributions d'entraînement. Ce travail offre une compréhension plus approfondie des raisons et des moments où le raisonnement CoT échoue, soulignant le défi permanent d'atteindre un raisonnement authentique et généralisable.
Des études récentes se sont penchées sur la construction d'agents autonomes capables d'exécuter des tâches informatiques complexes basées sur des interfaces graphiques (GUI), avec le potentiel de révolutionner l'interaction homme-machine. Malgré des résultats encourageants, les efforts existants se concentrent principalement sur des interactions à court terme et reposent sur une vérification basée uniquement sur les résultats, limitant ainsi leur évolutivité dans des applications GUI réelles qui nécessitent une décomposition et une exécution de tâches à long terme. Dans ce travail, nous présentons VeriGUI, un nouveau jeu de données GUI vérifiable à chaîne longue, conçu pour faciliter le développement et l'évaluation d'agents GUI généralistes opérant dans des environnements informatiques réalistes. Notre jeu de données met l'accent sur deux dimensions critiques : (1) la complexité à chaîne longue, avec des tâches décomposées en une séquence de sous-tâches interdépendantes couvrant des centaines d'étapes, explicitement conçues pour permettre à toute sous-tâche de servir de point de départ valide ; et (2) la vérifiabilité au niveau des sous-tâches, qui permet des stratégies d'exploration diversifiées au sein de chaque sous-tâche, tout en garantissant que chaque objectif au niveau des sous-tâches reste vérifiable et cohérent. Le jeu de données comprend des trajectoires de tâches GUI sur des environnements de bureau et web, annotées par des experts humains. Des expériences approfondies sur VeriGUI utilisant divers agents avec différents modèles de base révèlent des écarts de performance significatifs dans la gestion des tâches à long terme, soulignant la nécessité de capacités de planification et de prise de décision plus robustes pour les agents GUI.
Les capacités remarquables des agents pilotés par des modèles de langage de grande taille (LLM) ont permis à des systèmes sophistiqués de s'attaquer à des tâches complexes et multi-étapes, mais leurs coûts croissants menacent leur évolutivité et leur accessibilité. Ce travail présente la première étude systématique du compromis entre efficacité et performance dans les systèmes d'agents modernes, répondant au besoin critique de conceptions rentables sans sacrifier les performances. Nous explorons trois questions clés : (1) Quelle complexité les tâches agentiques nécessitent-elles intrinsèquement ? (2) Quand des modules supplémentaires entraînent-ils des rendements décroissants ? (3) Quelle efficacité peut-on gagner grâce à la conception de cadres d'agents optimisés ? À travers une analyse empirique sur le benchmark GAIA, nous évaluons l'impact du choix du modèle LLM de base, des conceptions de cadres d'agents et des stratégies de mise à l'échelle en temps de test. En utilisant la métrique du coût par passage, nous quantifions le compromis efficacité-performance sur ces dimensions. Nos résultats éclairent le développement d'Efficient Agents, un nouveau cadre d'agents doté d'une complexité optimale par rapport aux exigences des tâches. Efficient Agents conserve 96,7 % des performances d'OWL, l'un des principaux cadres d'agents open-source, tout en réduisant les coûts opérationnels de 0,398 à 0,228, ce qui représente une amélioration de 28,4 % du coût par passage. Notre travail fournit des insights actionnables pour concevoir des systèmes d'agents efficaces et performants, faisant progresser l'accessibilité et la durabilité des solutions pilotées par l'IA.
Nous présentons Agent Lightning, un cadre flexible et extensible qui permet l'entraînement par apprentissage par renforcement (Reinforcement Learning, RL) de modèles de langage de grande taille (Large Language Models, LLMs) pour tout agent d'IA. Contrairement aux méthodes existantes qui couplent étroitement l'entraînement RL avec l'agent ou reposent sur la concaténation de séquences avec masquage, Agent Lightning réalise une découplage complet entre l'exécution et l'entraînement de l'agent, permettant une intégration transparente avec des agents existants développés de diverses manières (par exemple, en utilisant des cadres comme LangChain, OpenAI Agents SDK, AutoGen, ou en partant de zéro) avec quasiment AUCUNE modification de code. En formulant l'exécution de l'agent comme un processus de décision markovien, nous définissons une interface de données unifiée et proposons un algorithme RL hiérarchique, LightningRL, qui inclut un module d'attribution de crédit, nous permettant de décomposer les trajectoires générées par TOUS les agents en transitions d'entraînement. Cela permet au RL de gérer une logique d'interaction complexe, comme les scénarios multi-agents et les workflows dynamiques. Pour la conception du système, nous introduisons une architecture de Disaggregation Entraînement-Agent, et intégrons des cadres d'observabilité des agents dans le runtime de l'agent, fournissant une interface standardisée pour le fine-tuning des agents. Les expériences menées sur des tâches de text-to-SQL, de génération augmentée par récupération, et d'utilisation d'outils mathématiques démontrent des améliorations stables et continues, mettant en évidence le potentiel du cadre pour l'entraînement et le déploiement d'agents dans des scénarios réels.
Les recherches sur les applications de l'apprentissage par renforcement (Reinforcement Learning, RL) aux modèles de langage à grande échelle (Large Language Models, LLMs) se sont principalement concentrées sur des problèmes à tour unique, tels que le raisonnement mathématique ou la génération de code en une seule étape. Bien que ces problèmes puissent être considérés comme des MDP (Processus de Décision Markovien) multi-tours au niveau des tokens, cette perspective correspond à un cas dégénéré d'interaction multi-tours où l'environnement ne fournit aucun retour. Cela contraste avec de nombreux domaines du monde réel, tels que l'ingénierie logicielle (Software Engineering, SWE), qui nécessitent des interactions multi-tours riches avec un environnement étatique qui répond à chaque action par une observation non triviale. Pour combler cette lacune, nous démontrons l'application réussie du RL à ce régime général. En utilisant une version modifiée de l'algorithme Decoupled Advantage Policy Optimization (DAPO), nous entraînons un agent basé sur Qwen2.5-72B-Instruct pour résoudre des tâches d'ingénierie logicielle du monde réel. Notre approche augmente le taux de réussite de l'agent sur le benchmark SWE-bench Verified d'une base de référence ajustée par rejet de 20 % à 39 %, sans recourir à aucun modèle enseignant. Sur SWE-rebench, notre agent égalise ou surpasse les modèles open-weight leaders tels que DeepSeek-V3-0324 et Qwen3-235B-A22B en utilisant un échafaudage identique, offrant ainsi une voie viable pour construire des agents autonomes plus performants pour des problèmes complexes du monde réel basés sur des modèles ouverts.
Le réemploi des grands modèles vision-langage (LVLMs) en tant qu'agents d'utilisation informatique (CUAs) a conduit à des avancées majeures, principalement alimentées par des données annotées manuellement. Cependant, ces modèles rencontrent souvent des difficultés avec des logiciels nouveaux et spécialisés, en particulier dans des scénarios dépourvus d'annotations humaines. Pour relever ce défi, nous proposons SEAgent, un cadre agentique auto-évolutif permettant aux CUAs d'évoluer de manière autonome grâce à des interactions avec des logiciels inconnus. Plus précisément, SEAgent habilite les agents d'utilisation informatique à maîtriser de manière autonome de nouveaux environnements logiciels via l'apprentissage expérientiel, où les agents explorent de nouveaux logiciels, apprennent par essais et erreurs itératifs, et abordent progressivement des tâches auto-générées organisées du simple au complexe. Pour atteindre cet objectif, nous concevons un modèle d'état du monde pour l'évaluation pas à pas des trajectoires, ainsi qu'un générateur de curriculum qui produit des tâches de plus en plus diversifiées et complexes. La politique de l'agent est mise à jour par l'apprentissage expérientiel, comprenant l'imitation adverse des actions d'échec et l'optimisation relative de politique de groupe (GRPO) sur les actions réussies. De plus, nous introduisons une stratégie de formation spécialiste-généraliste qui intègre les insights expérientiels individuels des agents spécialistes, facilitant le développement d'un CUA généraliste plus robuste capable d'une évolution autonome continue. Cet agent unifié finit par surpasser les performances d'ensembles d'agents spécialistes individuels sur leurs logiciels spécialisés. Nous validons l'efficacité de SEAgent dans cinq environnements logiciels nouveaux au sein d'OS-World. Notre approche réalise une amélioration significative de 23,2 % du taux de réussite, passant de 11,3 % à 34,5 %, par rapport à un CUA open-source concurrent, à savoir UI-TARS.
Les agents interactifs multimodaux doivent convertir des observations visuelles brutes en séquences cohérentes d'actions conditionnées par le langage — une capacité que les modèles vision-langage (VLMs) actuels ne possèdent pas encore. Les efforts antérieurs en apprentissage par renforcement (RL) pourraient, en principe, doter les VLMs de telles compétences, mais ils ont rarement testé si les comportements appris se généralisent au-delà de leurs simulateurs d'entraînement, et ils dépendent soit d'un réglage hyperparamétrique fragile, soit d'environnements à récompense dense avec une faible variabilité d'état. Nous introduisons Vision-Language Decoupled Actor-Critic (VL-DAC), un algorithme RL léger et sans hyperparamètres. VL-DAC applique des mises à jour PPO aux tokens d'action tout en apprenant la valeur uniquement au niveau de l'étape environnementale : une configuration, à notre connaissance, non explorée auparavant pour les grands VLMs ou LLMs. Ce découplage simple supprime les termes de pondération instables et permet une convergence plus rapide et plus fiable. L'entraînement d'un seul VLM avec VL-DAC dans un simulateur peu coûteux à la fois (MiniWorld, Gym-Cards, ALFWorld ou WebShop) produit déjà des politiques qui se généralisent largement : +50 % relatif sur BALROG (contrôle agentique centré sur le jeu), +5 % relatif sur la partie la plus difficile de VSI-Bench (planification spatiale), et +2 % sur VisualWebBench (navigation web), le tout sans dégrader la précision générale de la compréhension d'images. Ces résultats fournissent la première preuve qu'un algorithme RL simple peut entraîner des VLMs entièrement dans des mondes synthétiques bon marché tout en offrant des gains mesurables sur des benchmarks réels de contrôle agentique, de raisonnement spatial et de navigation web.
L'intelligence sociale est devenue une capacité cruciale pour les grands modèles de langage (LLMs), leur permettant de s'engager efficacement dans des tâches sociales du monde réel telles que l'adaptation, la persuasion, la collaboration et la négociation. L'apprentissage par renforcement (RL) est naturellement adapté pour entraîner des agents socialement intelligents, car il permet aux modèles d'apprendre des stratégies sophistiquées directement à travers des interactions sociales. Cependant, les interactions sociales présentent deux caractéristiques clés qui posent des obstacles à l'entraînement par RL : (1) l'observabilité partielle, où les énoncés ont des effets indirects et retardés qui compliquent l'attribution des crédits, et (2) la multi-dimensionnalité, où des comportements tels que l'établissement de relations ou la recherche de connaissances contribuent indirectement à la réalisation des objectifs. Ces caractéristiques rendent inefficace et instable le RL basé sur les processus de décision markoviens (MDP) avec des récompenses unidimensionnelles au niveau de l'épisode. Pour relever ces défis, nous proposons Sotopia-RL, un cadre novateur qui affine les retours bruts au niveau de l'épisode en récompenses multi-dimensionnelles au niveau des énoncés. L'attribution des crédits au niveau des énoncés atténue l'observabilité partielle en attribuant les résultats à des énoncés individuels, tandis que les récompenses multi-dimensionnelles capturent toute la richesse des interactions sociales et réduisent le détournement de récompenses. Les expériences dans Sotopia, un environnement d'apprentissage social ouvert, démontrent que Sotopia-RL atteint des scores de réalisation d'objectifs sociaux de pointe (7,17 sur Sotopia-hard et 8,31 sur Sotopia-full), surpassant significativement les approches existantes. Les études d'ablation confirment la nécessité à la fois de l'attribution des crédits au niveau des énoncés et de la conception de récompenses multi-dimensionnelles pour l'entraînement par RL. Notre implémentation est disponible publiquement à l'adresse : https://github.com/sotopia-lab/sotopia-rl.
La toxicité des médicaments reste un défi majeur dans le développement pharmaceutique. Les récents modèles d'apprentissage automatique ont amélioré la prédiction in silico de la toxicité, mais leur dépendance aux données annotées et leur manque d'interprétabilité limitent leur applicabilité. Cela restreint leur capacité à capturer les toxicités spécifiques aux organes, influencées par des mécanismes biologiques complexes. Les grands modèles de langage (LLMs) offrent une alternative prometteuse grâce à un raisonnement étape par étape et à l'intégration de données textuelles, mais les approches précédentes manquent de contexte biologique et de justification transparente. Pour résoudre ce problème, nous proposons CoTox, un cadre novateur qui intègre un LLM avec un raisonnement en chaîne de pensée (CoT) pour la prédiction multi-toxicité. CoTox combine des données de structure chimique, des voies biologiques et des termes d'ontologie génique (GO) pour générer des prédictions de toxicité interprétables via un raisonnement étape par étape. En utilisant GPT-4o, nous montrons que CoTox surpasse à la fois les modèles d'apprentissage automatique traditionnels et les modèles d'apprentissage profond. Nous examinons également ses performances sur divers LLMs pour identifier où CoTox est le plus efficace. De plus, nous constatons que la représentation des structures chimiques avec des noms IUPAC, plus faciles à comprendre pour les LLMs que les SMILES, améliore la capacité de raisonnement du modèle et ses performances prédictives. Pour démontrer son utilité pratique dans le développement de médicaments, nous simulons le traitement de types cellulaires pertinents avec un médicament et intégrons le contexte biologique résultant dans le cadre CoTox. Cette approche permet à CoTox de générer des prédictions de toxicité alignées avec les réponses physiologiques, comme le montre une étude de cas. Ce résultat met en évidence le potentiel des cadres basés sur les LLMs pour améliorer l'interprétabilité et soutenir l'évaluation précoce de la sécurité des médicaments. Le code et les prompts utilisés dans ce travail sont disponibles à l'adresse https://github.com/dmis-lab/CoTox.
Les modèles multimodaux à grande échelle ont considérablement fait progresser le développement des agents web, permettant une perception et une interaction avec les environnements numériques similaires à la cognition humaine. Dans cet article, nous soutenons que les agents web doivent d'abord acquérir des connaissances suffisantes pour s'engager efficacement dans un raisonnement cognitif. Par conséquent, nous décomposons les capacités d'un agent web en deux étapes essentielles : l'apprentissage du contenu des connaissances et les processus cognitifs. Pour formaliser cela, nous proposons le cadre Web-CogKnowledge, qui catégorise les connaissances en Factuelles, Conceptuelles et Procédurales. Dans ce cadre, l'apprentissage du contenu des connaissances correspond aux processus de Mémorisation et de Compréhension de l'agent, qui reposent sur les deux premiers types de connaissances, représentant le "quoi" de l'apprentissage. À l'inverse, les processus cognitifs correspondent à l'Exploration, basée sur les connaissances Procédurales, définissant le "comment" du raisonnement et de l'action. Pour faciliter l'acquisition des connaissances, nous construisons le Web-CogDataset, une ressource structurée issue de 14 sites web réels, conçue pour inculquer systématiquement les connaissances fondamentales nécessaires à un agent web. Ce jeu de données sert de base conceptuelle à l'agent — les "noms" sur lesquels la compréhension est construite — ainsi que de fondement pour apprendre à raisonner et à agir. Sur cette base, nous opérationnalisons ces processus à travers un nouveau cadre de raisonnement en chaîne de pensée (Chain-of-Thought, CoT) piloté par les connaissances, développant et entraînant notre agent proposé, le Web-CogReasoner. Des expérimentations approfondies révèlent sa supériorité significative par rapport aux modèles existants, en particulier dans la généralisation à des tâches inédites où les connaissances structurées sont déterminantes. Pour permettre une évaluation rigoureuse, nous introduisons le Web-CogBench, une suite d'évaluation complète conçue pour mesurer et comparer les performances des agents à travers les domaines de connaissances et les capacités cognitives définis. Notre code et nos données sont open source à l'adresse https://github.com/Gnonymous/Web-CogReasoner.
La conversion de conceptions de pages web en code (design-to-code) joue un rôle essentiel dans le développement d'interfaces utilisateur (UI) pour les développeurs front-end, en comblant le fossé entre la conception visuelle et l'implémentation fonctionnelle. Bien que les modèles de langage multimodaux de grande envergure (MLLMs) récents aient montré un potentiel significatif dans les tâches de design-to-code, ils échouent souvent à préserver avec précision la mise en page lors de la génération de code. À cette fin, nous nous inspirons du raisonnement en chaîne de pensée (Chain-of-Thought, CoT) dans la cognition humaine et proposons LaTCoder, une approche novatrice qui améliore la préservation de la mise en page dans la conception de pages web lors de la génération de code grâce à la mise en page comme pensée (Layout-as-Thought, LaT). Plus précisément, nous introduisons d'abord un algorithme simple mais efficace pour diviser la conception de la page web en blocs d'images. Ensuite, nous incitons les MLLMs à l'aide d'une approche basée sur le CoT pour générer du code pour chaque bloc. Enfin, nous appliquons deux stratégies d'assemblage—le positionnement absolu et une méthode basée sur les MLLMs—suivies d'une sélection dynamique pour déterminer la sortie optimale. Nous évaluons l'efficacité de LaTCoder en utilisant plusieurs MLLMs de base (c'est-à-dire DeepSeek-VL2, Gemini et GPT-4o) sur un benchmark public et sur un nouveau benchmark plus exigeant (CC-HARD) qui présente des mises en page complexes. Les résultats expérimentaux sur les métriques automatiques montrent des améliorations significatives. Plus précisément, les scores TreeBLEU ont augmenté de 66,67 % et l'erreur absolue moyenne (MAE) a diminué de 38 % lors de l'utilisation de DeepSeek-VL2, par rapport à l'incitation directe. De plus, les résultats de l'évaluation des préférences humaines indiquent que les annotateurs préfèrent les pages web générées par LaTCoder dans plus de 60 % des cas, fournissant une preuve solide de l'efficacité de notre méthode.
L'évaluation des modèles de génération texte-image nécessite un alignement avec la perception humaine, mais les métriques centrées sur l'homme existantes sont limitées par une couverture de données restreinte, une extraction de caractéristiques sous-optimale et des fonctions de perte inefficaces. Pour relever ces défis, nous introduisons le Human Preference Score v3 (HPSv3). (1) Nous publions HPDv3, le premier ensemble de données à large spectre sur les préférences humaines, intégrant 1,08 million de paires texte-image et 1,17 million de comparaisons par paires annotées, provenant de modèles génératifs de pointe et d'images réelles de qualité variée. (2) Nous présentons un modèle de préférence basé sur un VLM (Vision-Language Model), entraîné à l'aide d'une fonction de perte de classement prenant en compte l'incertitude pour un classement fin. Par ailleurs, nous proposons Chain-of-Human-Preference (CoHP), une méthode itérative de raffinement d'images qui améliore la qualité sans données supplémentaires, en utilisant HPSv3 pour sélectionner la meilleure image à chaque étape. Des expériences approfondies démontrent que HPSv3 constitue une métrique robuste pour l'évaluation d'images à large spectre, et que CoHP offre une approche efficace et alignée sur les préférences humaines pour améliorer la qualité de la génération d'images. Le code et l'ensemble de données sont disponibles sur la page d'accueil de HPSv3.
Dans cet article, nous présentons un nouveau cadre pour la génération vidéo-à-4D qui crée du contenu 3D dynamique de haute qualité à partir d'entrées vidéo uniques. La modélisation directe de la diffusion 4D est extrêmement complexe en raison du coût élevé de la construction des données et de la nature haute dimensionnelle de la représentation conjointe de la forme 3D, de l'apparence et du mouvement. Nous relevons ces défis en introduisant un VAE de champ de variation Direct 4DMesh-to-GS qui encode directement les éclats gaussiens canoniques (GS) et leurs variations temporelles à partir de données d'animation 3D sans ajustement par instance, et compresse les animations haute dimensionnelle dans un espace latent compact. En nous appuyant sur cette représentation efficace, nous entraînons un modèle de diffusion de champ de variation gaussien avec un Transformer de diffusion temporellement conscient conditionné sur les vidéos d'entrée et les GS canoniques. Entraîné sur des objets 3D animables soigneusement sélectionnés du jeu de données Objaverse, notre modèle démontre une qualité de génération supérieure par rapport aux méthodes existantes. Il montre également une généralisation remarquable pour les entrées vidéo en conditions réelles, malgré un entraînement exclusivement sur des données synthétiques, ouvrant la voie à la génération de contenu 3D animé de haute qualité. Page du projet : https://gvfdiffusion.github.io/.
La technologie d'essayage virtuel vidéo (VVT) a suscité un intérêt académique considérable en raison de ses applications prometteuses dans la publicité e-commerce et le divertissement. Cependant, la plupart des méthodes end-to-end existantes reposent fortement sur des ensembles de données appariés centrés sur les vêtements, qui sont rares, et ne parviennent pas à exploiter efficacement les connaissances préalables des modèles visuels avancés et des entrées au moment du test, ce qui rend difficile la préservation précise des détails fins des vêtements et le maintien de la cohérence temporelle dans des scénarios non contraints. Pour relever ces défis, nous proposons DreamVVT, un cadre en deux étapes soigneusement conçu, basé sur les Transformers de Diffusion (DiTs), qui est intrinsèquement capable d'exploiter des données non appariées centrées sur l'humain pour améliorer l'adaptabilité dans des scénarios réels. Pour exploiter davantage les connaissances préalables des modèles pré-entraînés et des entrées au moment du test, dans la première étape, nous échantillonnons des images représentatives de la vidéo d'entrée et utilisons un modèle d'essayage multi-images intégré à un modèle vision-langage (VLM) pour synthétiser des images d'essayage de haute fidélité et sémantiquement cohérentes. Ces images servent de guide d'apparence complémentaire pour la génération vidéo ultérieure. Dans la deuxième étape, des cartes de squelette ainsi que des descriptions fines du mouvement et de l'apparence sont extraites du contenu d'entrée, et celles-ci, ainsi que les images d'essayage clés, sont ensuite introduites dans un modèle de génération vidéo pré-entraîné amélioré avec des adaptateurs LoRA. Cela assure une cohérence temporelle à long terme pour les régions non vues et permet des mouvements dynamiques hautement plausibles. Des expériences quantitatives et qualitatives approfondies démontrent que DreamVVT surpasse les méthodes existantes en préservant le contenu détaillé des vêtements et la stabilité temporelle dans des scénarios réels. Notre page de projet est disponible à l'adresse https://virtu-lab.github.io/
Les conférences sur l'intelligence artificielle (IA) sont essentielles pour faire progresser la recherche, partager les connaissances et renforcer la communauté académique. Cependant, leur expansion rapide a rendu le modèle de conférence centralisé de plus en plus insoutenable. Cet article propose un diagnostic fondé sur les données d'une crise structurelle qui menace les objectifs fondamentaux de la diffusion scientifique, de l'équité et du bien-être communautaire. Nous identifions quatre domaines clés de tension : (1) sur le plan scientifique, avec des taux de publication par auteur ayant plus que doublé au cours de la dernière décennie pour dépasser 4,5 articles par an ; (2) sur le plan environnemental, avec l'empreinte carbone d'une seule conférence dépassant les émissions quotidiennes de la ville hôte ; (3) sur le plan psychologique, avec 71 % des discussions en ligne de la communauté reflétant un sentiment négatif et 35 % faisant référence à des préoccupations liées à la santé mentale ; et (4) sur le plan logistique, avec la participation à des conférences majeures comme NeurIPS 2024 commençant à dépasser la capacité des lieux d'accueil. Ces pressions indiquent un système en décalage avec sa mission fondamentale. En réponse, nous proposons le modèle de Conférence Fédérée par la Communauté (CFC), qui sépare l'évaluation par les pairs, la présentation et le réseautage en composantes coordonnées à l'échelle mondiale mais organisées localement, offrant ainsi une voie plus durable, inclusive et résiliente pour la recherche en IA.
Les grands modèles de langage (LLMs) permettent de réaliser des tâches à contexte long, mais rencontrent des défis d'efficacité en raison de la croissance du cache clé-valeur (KV). Nous proposons LeanK, une méthode basée sur l'apprentissage qui élimine les canaux de cache clé (K) non importants en exploitant la sparsité statique des canaux. Grâce à un processus d'entraînement en deux étapes innovant, LeanK apprend un masque statique par canal qui peut satisfaire un ratio de sparsité spécifique et les exigences d'alignement matériel. LeanK réduit la mémoire GPU et accélère le décodage sans sacrifier la précision. Les expériences démontrent une réduction allant jusqu'à 70 % du cache K et de 16 % à 18 % du cache V. Un noyau de décodage personnalisé permet une accélération de 1,3x pour le calcul de l'attention. Nous fournissons également des insights sur les canaux du modèle et les têtes d'attention lors de l'inférence à contexte long en analysant la distribution d'importance apprise. Notre code est disponible à l'adresse https://aka.ms/LeanK.
Les grands modèles de langage (LLMs) subissent une dégradation significative de leurs performances lorsqu'ils traitent des contextes longs, en raison d'interférences proactives où des informations non pertinentes dans les parties antérieures du contexte perturbent le raisonnement et la récupération en mémoire. Alors que la plupart des recherches se concentrent sur des systèmes de mémoire externe pour augmenter les capacités des LLMs, nous proposons une approche complémentaire : doter les LLMs d'outils de Gestion Active du Contexte (ACM) pour façonner activement leur mémoire de travail interne. Nous présentons Sculptor, un cadre qui équipe les LLMs de trois catégories d'outils : (1) fragmentation du contexte, (2) résumé, masquage et restauration, et (3) recherche intelligente. Notre approche permet aux LLMs de gérer proactivement leur attention et leur mémoire de travail, de manière analogue à la façon dont les humains se concentrent sélectivement sur les informations pertinentes tout en filtrant les distractions. L'évaluation expérimentale sur des benchmarks à faible densité d'information—PI-LLM (interférence proactive) et NeedleBench Multi-Needle Reasoning—démontre que Sculptor améliore significativement les performances même sans entraînement spécifique, en exploitant les capacités inhérentes des LLMs à généraliser l'appel d'outils. En permettant une Gestion Active du Contexte, Sculptor non seulement atténue les interférences proactives, mais fournit également une fondation cognitive pour un raisonnement plus fiable dans diverses tâches à contexte long—soulignant que des stratégies explicites de contrôle du contexte, plutôt que de simples fenêtres de tokens plus larges, sont essentielles pour une robustesse à grande échelle.
L'autoformalisation vise à traduire des énoncés mathématiques en langage naturel dans un langage formel. Bien que les modèles de langage de grande taille (LLMs) aient accéléré les progrès dans ce domaine, les méthodes existantes souffrent encore d'une faible précision. Nous identifions deux compétences clés pour une autoformalisation efficace : une maîtrise approfondie des connaissances du domaine du langage formel, et une capacité de raisonnement pour la compréhension des problèmes en langage naturel et l'alignement informel-formel. Sans la première, un modèle ne peut pas identifier les objets formels corrects ; sans la seconde, il peine à interpréter les contextes réels et à les mapper précisément en expressions formelles. Pour combler ces lacunes, nous introduisons ThinkingF, un pipeline de synthèse de données et d'entraînement qui améliore ces deux compétences. D'abord, nous construisons deux ensembles de données : l'un en distillant et en sélectionnant des exemples à grande échelle riches en connaissances formelles, et l'autre en générant des trajectoires de raisonnement informel-formel guidées par des modèles conçus par des experts. Nous appliquons ensuite l'apprentissage supervisé fin (SFT) et le renforcement par récompense verbale (RLVR) avec ces ensembles de données pour fusionner et affiner davantage ces deux compétences. Les modèles résultants de 7B et 32B montrent à la fois une connaissance formelle complète et un raisonnement solide de l'informel au formel. Notamment, StepFun-Formalizer-32B atteint des scores BEq@1 de pointe de 40,5 % sur FormalMATH-Lite et de 26,7 % sur ProverBench, surpassant tous les modèles généralistes et spécialisés précédents.
Les grands modèles de langage permettent aux agents d'exécuter des tâches de manière autonome dans des environnements web ouverts. Cependant, à mesure que les menaces cachées sur le web évoluent, les agents web sont confrontés au défi d'équilibrer la performance des tâches avec les risques émergents lors d'opérations à longues séquences. Bien que ce défi soit crucial, les recherches actuelles se limitent à l'optimisation mono-objectif ou à des scénarios en un seul tour, manquant ainsi de la capacité d'optimisation collaborative de la sécurité et de l'utilité dans les environnements web. Pour combler cette lacune, nous proposons HarmonyGuard, un cadre collaboratif multi-agents qui exploite l'amélioration des politiques et l'optimisation des objectifs pour améliorer conjointement l'utilité et la sécurité. HarmonyGuard se caractérise par une architecture multi-agents dotée de deux capacités fondamentales : (1) Amélioration Adaptative des Politiques : Nous introduisons l'Agent de Politique au sein de HarmonyGuard, qui extrait et maintient automatiquement des politiques de sécurité structurées à partir de documents externes non structurés, tout en mettant à jour continuellement les politiques en réponse aux menaces évolutives. (2) Optimisation Duale des Objectifs : Basée sur les deux objectifs de sécurité et d'utilité, l'Agent d'Utilité intégré dans HarmonyGuard effectue un raisonnement en temps réel de type Markovien pour évaluer les objectifs et utilise des capacités métacognitives pour leur optimisation. Des évaluations approfondies sur plusieurs benchmarks montrent que HarmonyGuard améliore la conformité aux politiques jusqu'à 38 % et la réalisation des tâches jusqu'à 20 % par rapport aux bases de référence existantes, tout en atteignant plus de 90 % de conformité aux politiques pour toutes les tâches. Notre projet est disponible ici : https://github.com/YurunChen/HarmonyGuard.
Les approches actuelles pour les grands modèles de langage audio (LALMs) reposent souvent sur des sources de données fermées ou des modèles propriétaires, limitant ainsi leur généralisation et leur accessibilité. Cet article présente MiDashengLM, un nouveau modèle audio-langage ouvert conçu pour une compréhension audio efficace et complète grâce à l'utilisation de légendes audio générales via notre nouvel ensemble de données d'entraînement ACAVCaps. MiDashengLM s'appuie exclusivement sur des ensembles de données de pré-entraînement et de fine-tuning supervisé (SFT) disponibles publiquement, garantissant une transparence et une reproductibilité totales. Au cœur de MiDashengLM se trouve Dasheng, un encodeur audio open-source, spécifiquement conçu pour traiter efficacement des informations auditives variées. Contrairement aux travaux précédents principalement axés sur l'alignement audio-texte basé sur la reconnaissance automatique de la parole (ASR), notre stratégie se concentre sur les légendes audio générales, fusionnant les informations de parole, de son et de musique en une seule représentation textuelle, permettant ainsi une représentation textuelle holistique de scènes audio complexes. Enfin, MiDashengLM offre une accélération allant jusqu'à 4x en termes de temps jusqu'au premier jeton (TTFT) et un débit jusqu'à 20x supérieur par rapport aux modèles comparables. Les points de contrôle sont disponibles en ligne à l'adresse https://huggingface.co/mispeech/midashenglm-7b et https://github.com/xiaomi-research/dasheng-lm.
La segmentation d’instances est essentielle en imagerie biomédicale pour distinguer avec précision des objets individuels tels que les cellules, qui se chevauchent souvent et varient en taille. Les méthodes récentes basées sur des requêtes, où des requêtes d’objets guident la segmentation, ont démontré des performances solides. Bien que l’U-Net soit une architecture de référence en segmentation d’images médicales, son potentiel dans les approches basées sur des requêtes reste largement inexploré. Dans ce travail, nous présentons IAUNet, une nouvelle architecture U-Net basée sur des requêtes. La conception centrale repose sur une architecture U-Net complète, améliorée par un nouveau décodeur de pixels convolutif léger, rendant le modèle plus efficace et réduisant le nombre de paramètres. De plus, nous proposons un décodeur Transformer qui affine les caractéristiques spécifiques aux objets à travers plusieurs échelles. Enfin, nous introduisons le jeu de données 2025 Revvity Full Cell Segmentation Dataset, une ressource unique avec des annotations détaillées du cytoplasme cellulaire se chevauchant dans des images en champ clair, établissant un nouveau référentiel pour la segmentation d’instances biomédicales. Les expériences sur plusieurs jeux de données publics et nos propres données montrent qu’IAUNet surpasse la plupart des modèles à convolution complète, basés sur des transformateurs et des requêtes, ainsi que les modèles spécifiques à la segmentation cellulaire, établissant une base solide pour les tâches de segmentation d’instances cellulaires. Le code est disponible à l’adresse suivante : https://github.com/SlavkoPrytula/IAUNet.
La reconnaissance d'entités nommées (NER) est fondamentale pour extraire des informations structurées des plus de 80 % de données de santé résidant dans les notes cliniques non structurées et la littérature biomédicale. Malgré les récents progrès des grands modèles de langage, atteindre des performances de pointe sur divers types d'entités tout en maintenant une efficacité computationnelle reste un défi majeur. Nous présentons OpenMed NER, une suite de modèles transformateurs open source adaptés au domaine, combinant un pré-entraînement léger adaptatif au domaine (DAPT) avec l'adaptation efficace en paramètres Low-Rank Adaptation (LoRA). Notre approche effectue un DAPT rentable sur un corpus de 350 000 passages compilé à partir de dépôts de recherche éthiquement sourcés et accessibles au public, ainsi que de notes cliniques anonymisées (PubMed, arXiv et MIMIC-III), en utilisant les architectures DeBERTa-v3, PubMedBERT et BioELECTRA. Cela est suivi d'un ajustement spécifique à la tâche avec LoRA, qui met à jour moins de 1,5 % des paramètres du modèle. Nous évaluons nos modèles sur 12 benchmarks établis de NER biomédicale couvrant les produits chimiques, les maladies, les gènes et les espèces. OpenMed NER atteint de nouveaux scores micro-F1 de pointe sur 10 de ces 12 ensembles de données, avec des gains substantiels sur divers types d'entités. Nos modèles améliorent l'état de l'art sur des benchmarks fondamentaux pour les maladies et les produits chimiques (par exemple, BC5CDR-Disease, +2,70 pp), tout en offrant des améliorations encore plus importantes de plus de 5,3 et 9,7 points de pourcentage sur des corpus plus spécialisés de gènes et de lignées cellulaires cliniques. Ce travail démontre que des modèles open source stratégiquement adaptés peuvent surpasser les solutions propriétaires. Cette performance est atteinte avec une efficacité remarquable : l'entraînement se termine en moins de 12 heures sur un seul GPU avec une faible empreinte carbone (< 1,2 kg CO2e), produisant des points de contrôle open source sous licence permissive conçus pour aider les praticiens à se conformer aux réglementations émergentes sur la protection des données et l'IA, telles que la loi européenne sur l'IA.
Les garanties de sécurité à la compilation de Rust en font un choix idéal pour les systèmes critiques, créant une demande pour la traduction de bases de code C héritées vers Rust. Bien que diverses approches aient émergé pour cette tâche, elles se heurtent à des compromis inhérents : les solutions basées sur des règles rencontrent des difficultés à répondre aux exigences de sécurité et d'idiomaticité du code, tandis que les solutions basées sur des modèles de langage (LLM) échouent souvent à générer du code Rust sémantiquement équivalent, en raison des dépendances lourdes entre les modules à travers l'ensemble de la base de code. Des études récentes ont révélé que ces deux solutions sont limitées à des programmes de petite taille. Dans cet article, nous proposons EvoC2Rust, un cadre automatisé pour convertir des projets C entiers en projets Rust équivalents. EvoC2Rust emploie une stratégie de traduction guidée par un squelette pour la traduction au niveau du projet. Le pipeline se compose de trois étapes évolutives : 1) il décompose d'abord le projet C en modules fonctionnels, utilise un LLM amélioré par une cartographie des fonctionnalités pour transformer les définitions et les macros, et génère des squelettes de fonctions vérifiés par type, formant ainsi un squelette Rust compilable ; 2) il traduit ensuite progressivement les fonctions, en remplaçant les espaces réservés correspondants dans le squelette ; 3) enfin, il corrige les erreurs de compilation en intégrant le LLM et l'analyse statique. Grâce à l'augmentation évolutive, EvoC2Rust combine les avantages des solutions basées sur des règles et des LLM. Notre évaluation sur des benchmarks open source et six projets industriels démontre la performance supérieure d'EvoC2Rust dans la traduction de projets C vers Rust. En moyenne, il obtient des améliorations de 17,24 % et 14,32 % en précision syntaxique et sémantique par rapport aux approches basées sur des LLM, ainsi qu'un taux de sécurité du code 96,79 % plus élevé que les outils basés sur des règles. Au niveau des modules, EvoC2Rust atteint des taux de compilation de 92,25 % et de réussite aux tests de 89,53 % sur des projets industriels, même pour des bases de code complexes et des fonctions longues.
Nous présentons DPoser-X, un modèle de priorité basé sur la diffusion pour les poses humaines 3D du corps entier. La construction d'un modèle de priorité robuste et polyvalent pour les poses humaines complètes reste un défi en raison de la complexité inhérente des poses articulées humaines et de la rareté des ensembles de données de haute qualité sur les poses du corps entier. Pour surmonter ces limitations, nous introduisons un modèle de Diffusion comme priorité de pose corporelle (DPoser) et l'étendons à DPoser-X pour la modélisation expressive des poses humaines du corps entier. Notre approche unifie diverses tâches centrées sur les poses en tant que problèmes inverses, les résolvant par échantillonnage variationnel de diffusion. Pour améliorer les performances dans les applications en aval, nous introduisons une nouvelle méthode de planification des pas de temps tronqués, spécifiquement conçue pour les caractéristiques des données de pose. Nous proposons également un mécanisme d'entraînement masqué qui combine efficacement les ensembles de données du corps entier et spécifiques à des parties, permettant à notre modèle de capturer les interdépendances entre les parties du corps tout en évitant le surajustement à des actions spécifiques. Des expériences approfondies démontrent la robustesse et la polyvalence de DPoser-X sur plusieurs benchmarks pour la modélisation des poses du corps, des mains, du visage et du corps entier. Notre modèle surpasse systématiquement les alternatives de pointe, établissant un nouveau standard pour la modélisation des priorités de pose humaine du corps entier.
L'apprentissage par renforcement avec récompense vérifiable (RLVR) a considérablement amélioré les capacités de raisonnement complexe des grands modèles de langage (LLM). Cependant, il peine à dépasser les limites inhérentes du LLM de base, en raison de sa stratégie essentiellement on-policy, couplée à l'immense espace d'actions des LLM et à la rareté des récompenses. De manière critique, le RLVR peut entraîner un effondrement des limites de capacité, réduisant ainsi la portée de résolution de problèmes du LLM. Pour résoudre ce problème, nous proposons RL-PLUS, une nouvelle approche d'optimisation hybride pour les LLM qui combine l'exploitation interne avec des données externes pour atteindre des capacités de raisonnement plus robustes et dépasser les limites des modèles de base. RL-PLUS intègre deux composants clés : l'échantillonnage multiple d'importance pour résoudre le décalage distributionnel des données externes, et la fonction d'avantage basée sur l'exploration pour guider le modèle vers des chemins de raisonnement à haute valeur et inexplorés. Nous fournissons à la fois une analyse théorique et des expériences approfondies pour démontrer la supériorité et la généralisabilité de notre approche. Par rapport aux méthodes RLVR existantes, RL-PLUS obtient 1) des performances de pointe sur six benchmarks de raisonnement mathématique ; 2) des performances supérieures sur six tâches de raisonnement hors distribution ; 3) des gains constants et significatifs à travers diverses familles de modèles, avec des améliorations relatives moyennes allant jusqu'à 69,2 %. De plus, l'analyse des courbes Pass@k indique que RL-PLUS résout efficacement le problème d'effondrement des limites de capacité.
L'ancrage visuel vise à identifier des objets ou des régions dans une scène à partir de descriptions en langage naturel, ce qui est essentiel pour une perception spatialement consciente dans la conduite autonome. Cependant, les tâches d'ancrage visuel existantes reposent généralement sur des boîtes englobantes qui échouent souvent à capturer des détails fins. Tous les voxels à l'intérieur d'une boîte englobante ne sont pas occupés, ce qui entraîne des représentations d'objets imprécises. Pour remédier à cela, nous introduisons un benchmark pour l'ancrage d'occupation 3D dans des scènes extérieures complexes. Basé sur le jeu de données nuScenes, il intègre le langage naturel avec des annotations d'occupation au niveau des voxels, offrant une perception d'objet plus précise par rapport à la tâche d'ancrage traditionnelle. De plus, nous proposons GroundingOcc, un modèle end-to-end conçu pour l'ancrage d'occupation 3D grâce à l'apprentissage multimodal. Il combine des caractéristiques visuelles, textuelles et de nuages de points pour prédire la localisation et l'information d'occupation des objets, du grossier au fin. Plus précisément, GroundingOcc comprend un encodeur multimodal pour l'extraction de caractéristiques, une tête d'occupation pour les prédictions voxel par voxel, et une tête d'ancrage pour affiner la localisation. De plus, un module d'ancrage 2D et un module d'estimation de profondeur améliorent la compréhension géométrique, augmentant ainsi les performances du modèle. Des expériences approfondies sur le benchmark démontrent que notre méthode surpasse les baselines existantes en matière d'ancrage d'occupation 3D. Le jeu de données est disponible à l'adresse https://github.com/RONINGOD/GroundingOcc.
L'évaluation de la factualité sur des textes longs mesure la capacité des modèles à générer des réponses précises et complètes à des prompts courts. Les benchmarks existants manquent souvent de vérification humaine, ce qui peut entraîner des problèmes de qualité. Pour remédier à cette limitation, nous introduisons FACTORY, un ensemble de prompts à grande échelle vérifié par des humains. Développé en utilisant une approche de modèle-en-boucle et affiné par des humains, FACTORY inclut des prompts complexes qui sont factuels, répondables et non ambigus. Nous menons des évaluations humaines sur 6 modèles de langage de pointe en utilisant FACTORY et des jeux de données existants. Nos résultats montrent que FACTORY constitue un benchmark exigeant : environ 40 % des affirmations dans les réponses des modèles de pointe ne sont pas factuelles, contre seulement 10 % pour les autres jeux de données. Notre analyse met en lumière les avantages de FACTORY par rapport aux benchmarks précédents, soulignant sa fiabilité et la nécessité pour les modèles de raisonner sur des faits à longue traîne.
L'analyse des causes racines (RCA) dans les réseaux mobiles demeure une tâche complexe en raison du besoin d'interprétabilité, d'expertise domainale et de raisonnement causal. Dans ce travail, nous proposons un cadre léger qui exploite les modèles de langage de grande taille (LLMs) pour la RCA. Pour ce faire, nous introduisons TeleLogs, un ensemble de données annotées de problèmes de dépannage conçu pour évaluer les capacités de RCA. Notre évaluation révèle que les LLMs de raisonnement open-source existants peinent à résoudre ces problèmes, soulignant la nécessité d'une adaptation spécifique au domaine. Pour répondre à cette problématique, nous proposons une méthodologie d'apprentissage en deux étapes combinant un ajustement supervisé avec un apprentissage par renforcement afin d'améliorer la précision et la qualité du raisonnement des LLMs. L'approche proposée affine une série de modèles RCA pour intégrer des connaissances domainales et générer des explications diagnostiques structurées et multi-étapes, améliorant ainsi à la fois l'interprétabilité et l'efficacité. Des expériences approfondies sur plusieurs tailles de LLMs montrent des gains de performance significatifs par rapport aux modèles de raisonnement et non-raisonnement de pointe, y compris une forte généralisation à des variantes de tests randomisées. Ces résultats démontrent le potentiel des LLMs adaptés au domaine et renforcés en raisonnement pour une RCA pratique et explicable dans l'exploitation et la gestion des réseaux.
La conduite autonome nécessite une compréhension précise de la scène, incluant la géométrie de la route, les agents de circulation et leurs relations sémantiques. Dans les scénarios de génération de cartes HD en temps réel, les représentations basées sur des rasters sont bien adaptées aux modèles de vision mais manquent de précision géométrique, tandis que les représentations basées sur des graphes conservent les détails structurels mais deviennent instables sans cartes précises. Pour exploiter les forces complémentaires des deux approches, nous proposons DiffSemanticFusion — un cadre de fusion pour la prédiction de trajectoires multimodales et la planification. Notre méthode raisonne sur un espace BEV fusionné sémantiquement avec des rasters, enrichi par un module de diffusion de carte qui améliore à la fois la stabilité et l'expressivité des représentations de cartes HD en temps réel. Nous validons notre cadre sur deux tâches en aval : la prédiction de trajectoires et la conduite autonome de bout en bout orientée planification. Les expériences sur les benchmarks de conduite autonome du monde réel, nuScenes et NAVSIM, démontrent une amélioration des performances par rapport à plusieurs méthodes de pointe. Pour la tâche de prédiction sur nuScenes, nous intégrons DiffSemanticFusion avec QCNet informé par la carte HD en temps réel, obtenant une amélioration de performance de 5,1 %. Pour la conduite autonome de bout en bout dans NAVSIM, DiffSemanticFusion atteint des résultats de pointe, avec un gain de performance de 15 % dans les scénarios NavHard. De plus, des études approfondies d'ablation et de sensibilité montrent que notre module de diffusion de carte peut être intégré de manière transparente dans d'autres approches basées sur des vecteurs pour améliorer les performances. Tous les artefacts sont disponibles à l'adresse https://github.com/SunZhigang7/DiffSemanticFusion.
La génération de texte-à-3D (T23D) a révolutionné la création de contenu numérique, mais reste freinée par des processus d’incitation par essais et erreurs aveugles qui produisent des résultats imprévisibles. Bien que l’ingénierie des invites visuelles ait progressé dans les domaines du texte-à-image, son application à la génération 3D présente des défis uniques nécessitant une évaluation de la cohérence multi-vues et une compréhension spatiale. Nous présentons Sel3DCraft, un système d’ingénierie des invites visuelles pour la T23D qui transforme l’exploration non structurée en un processus visuel guidé. Notre approche introduit trois innovations clés : une structure à double branche combinant la récupération et la génération pour une exploration diversifiée de candidats ; une méthode de notation hybride multi-vues exploitant des MLLM avec des métriques innovantes de haut niveau pour évaluer les modèles 3D avec une cohérence d’expert humain ; et une suite d’analyse visuelle pilotée par des invites permettant une identification et un affinement intuitifs des défauts. Des tests approfondis et des études utilisateurs démontrent que Sel3DCraft surpasse les autres systèmes T23D en soutenant la créativité des concepteurs.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) améliore les capacités de suivi des instructions des grands modèles de langage (LLMs), mais souffre d'une inefficacité d'entraînement due à une évaluation inadéquate de la difficulté. De plus, le RLVR est sujet à une sur-optimisation, où les LLMs exploitent des raccourcis de vérification sans s'aligner sur l'intention réelle des instructions utilisateur. Nous introduisons Instruction Following Decorator (IFDecorator), un cadre qui intègre l'entraînement RLVR dans un pipeline robuste et économe en échantillons. Il se compose de trois éléments : (1) un volant d'inertie coopératif-adversarial qui co-évolue les instructions et les vérifications hybrides, générant des paires instruction-vérification de plus en plus difficiles ; (2) IntentCheck, un module de contournement qui impose l'alignement sur l'intention ; et (3) des fils de déclenchement, un mécanisme de diagnostic qui détecte le piratage des récompenses via des instructions pièges, qui déclenchent et capturent les comportements d'exploitation de raccourcis. Notre modèle Qwen2.5-32B-Instruct-IFDecorator atteint une précision de 87,43 % sur IFEval, surpassant des modèles propriétaires plus grands comme GPT-4o. De plus, nous démontrons des améliorations substantielles sur FollowBench tout en préservant les capacités générales. Nos fils de déclenchement montrent des réductions significatives des taux de piratage des récompenses. Nous publierons les modèles, le code et les données pour les recherches futures.
Bien que les progrès dans les capacités de raisonnement des LLM aient considérablement amélioré leurs performances dans la résolution de problèmes mathématiques, de tâches de codage et de casse-têtes généraux, leur efficacité à respecter avec précision les instructions reste inconstante, en particulier avec des directives plus complexes. Notre étude identifie un raisonnement paresseux lors de la phase de réflexion comme le principal facteur contribuant à une mauvaise adhésion aux instructions. Pour atténuer ce problème, nous proposons un cadre complet conçu pour permettre des processus de raisonnement rigoureux incluant une prévisualisation et une auto-vérification, essentielles pour satisfaire des contraintes d'instructions strictes. Plus précisément, nous générons d'abord des instructions avec des contraintes complexes et appliquons un processus de filtrage pour obtenir des prompts valides, aboutissant à trois ensembles de données de prompts distincts classés comme difficiles, faciles et passables. Ensuite, nous utilisons un échantillonnage par rejet sur les prompts passables pour constituer un petit ensemble de données de haute qualité, permettant une initialisation à froid du modèle et facilitant son adaptation à des schémas de raisonnement efficaces. Par la suite, nous employons une stratégie de fine-tuning supervisé préservant l'entropie (Entropy-SFT) couplée à un apprentissage par renforcement adaptatif à l'entropie par token (TEA-RL) guidé par des récompenses denses basées sur des règles. Cette approche encourage le modèle à transformer son mécanisme de raisonnement, favorisant ainsi des capacités de raisonnement généralisables qui incluent la prévisualisation et l'auto-vérification. Des expériences approfondies menées sur des benchmarks de suivi d'instructions démontrent des améliorations de performances remarquables à différentes échelles de modèles. Notamment, notre modèle Light-IF-32B surpasse à la fois les modèles open-source plus grands comme DeepSeek-R1 et les modèles fermés comme Doubao-1.6.
La détection d'anomalies 3D (AD) a démontré un grand potentiel pour identifier les anomalies ou défauts des produits industriels de haute précision. Cependant, les méthodes existantes sont généralement entraînées de manière spécifique à une classe et manquent également de capacité à apprendre à partir de nouvelles classes émergentes. Dans cette étude, nous proposons un cadre d'apprentissage continu nommé Continual 3D Anomaly Detection (C3D-AD), qui permet non seulement d'apprendre des représentations généralisées pour des nuages de points multi-classes, mais aussi de gérer de nouvelles classes apparaissant au fil du temps. Plus précisément, dans le module d'extraction de caractéristiques, pour extraire efficacement des caractéristiques locales généralisées à partir de divers types de produits pour différentes tâches, une couche d'attention à noyau avec caractéristiques aléatoires (KAL) est introduite, qui normalise l'espace des caractéristiques. Ensuite, pour reconstruire les données de manière correcte et continue, un mécanisme efficace d'attention à noyau avec conseiller apprenable (KAA) est proposé, qui apprend les informations des nouvelles catégories tout en éliminant les anciennes informations redondantes, à la fois dans l'encodeur et le décodeur. Enfin, pour maintenir la cohérence des représentations entre les tâches, un module de reconstruction avec perturbation des paramètres (RPP) est proposé en concevant une fonction de perte de répétition des représentations, qui garantit que le modèle se souvient des informations des catégories précédentes et retourne une représentation adaptative aux catégories. Des expériences approfondies sur trois ensembles de données publics démontrent l'efficacité de la méthode proposée, atteignant des performances moyennes de 66,4 %, 83,1 % et 63,4 % AUROC sur Real3D-AD, Anomaly-ShapeNet et MulSen-AD, respectivement.
Dans cet article, nous abordons des approches pour gouverner, évaluer et quantifier systématiquement les biais tout au long du cycle de vie complet des modèles d'apprentissage automatique, depuis le développement et la validation initiaux jusqu'au suivi en production et à la mise en place de garde-fous. En nous appuyant sur nos travaux fondateurs concernant la suite de tests d'évaluation et d'analyse des biais (BEATS) pour les modèles de langage de grande taille (LLMs), les auteurs partagent les lacunes prévalentes liées aux biais et à l'équité dans les LLMs et discutent d'un cadre de gouvernance des données et de l'IA pour aborder les questions de biais, d'éthique, d'équité et de factualité au sein des LLMs. L'approche de gouvernance des données et de l'IA présentée dans cet article est adaptée à des applications pratiques et réelles, permettant un benchmarking rigoureux des LLMs avant leur déploiement en production, facilitant une évaluation en temps réel continue et gouvernant de manière proactive les réponses générées par les LLMs. En mettant en œuvre cette gouvernance des données et de l'IA tout au long du cycle de développement de l'IA, les organisations peuvent considérablement améliorer la sécurité et la responsabilité de leurs systèmes d'IA générative, atténuant efficacement les risques de discrimination et protégeant contre les dommages potentiels liés à la réputation ou à la marque. Enfin, à travers cet article, nous visons à contribuer à l'avancement de la création et du déploiement d'applications d'intelligence artificielle générative socialement responsables et alignées sur des principes éthiques.
Les enregistrements musicaux souffrent souvent de problèmes de qualité audio tels qu'une réverbération excessive, des distorsions, des saturations, des déséquilibres tonaux et une image stéréo rétrécie, en particulier lorsqu'ils sont réalisés dans des contextes non professionnels sans équipement spécialisé ni expertise. Ces problèmes sont généralement corrigés à l'aide d'outils spécialisés distincts et d'ajustements manuels. Dans cet article, nous présentons SonicMaster, le premier modèle génératif unifié pour la restauration et le mastering musical, capable de traiter un large spectre d'artefacts audio avec un contrôle basé sur le texte. SonicMaster est conditionné par des instructions en langage naturel pour appliquer des améliorations ciblées, ou peut fonctionner en mode automatique pour une restauration générale. Pour entraîner ce modèle, nous avons construit le jeu de données SonicMaster, un vaste ensemble de pistes dégradées et de haute qualité appariées, en simulant des types de dégradations courants avec dix-neuf fonctions de dégradation appartenant à cinq groupes d'amélioration : égalisation, dynamique, réverbération, amplitude et stéréo. Notre approche exploite un paradigme d'entraînement génératif par correspondance de flux pour apprendre une transformation audio qui mappe les entrées dégradées vers leurs versions nettoyées et masterisées, guidée par des prompts textuels. Les métriques objectives de qualité audio démontrent que SonicMaster améliore significativement la qualité sonore dans toutes les catégories d'artefacts. De plus, des tests d'écoute subjectifs confirment que les auditeurs préfèrent les sorties améliorées de SonicMaster par rapport à l'audio dégradé d'origine, soulignant l'efficacité de notre approche unifiée.
Les modèles de diffusion texte-image ont démontré des capacités remarquables dans la génération de contenu artistique en apprenant à partir de milliards d'images, y compris des œuvres d'art populaires. Cependant, la question fondamentale de la manière dont ces modèles représentent en interne des concepts, tels que le contenu et le style dans les peintures, reste inexplorée. La vision par ordinateur traditionnelle suppose que le contenu et le style sont orthogonaux, mais les modèles de diffusion ne reçoivent aucune guidance explicite concernant cette distinction pendant leur entraînement. Dans ce travail, nous étudions comment les modèles de diffusion texte-image basés sur des transformers encodent les concepts de contenu et de style lors de la génération d'œuvres d'art. Nous exploitons des cartes de chaleur d'attention croisée pour attribuer les pixels des images générées à des tokens spécifiques du prompt, nous permettant ainsi d'isoler les régions de l'image influencées par les tokens décrivant le contenu par rapport à ceux décrivant le style. Nos résultats révèlent que les modèles de diffusion montrent des degrés variables de séparation contenu-style en fonction du prompt artistique spécifique et du style demandé. Dans de nombreux cas, les tokens de contenu influencent principalement les régions liées aux objets, tandis que les tokens de style affectent les zones de fond et de texture, suggérant une compréhension émergente de la distinction entre contenu et style. Ces insights contribuent à notre compréhension de la manière dont les modèles génératifs à grande échelle représentent en interne des concepts artistiques complexes sans supervision explicite. Nous partageons le code et le jeu de données, ainsi qu'un outil d'exploration pour visualiser les cartes d'attention à l'adresse https://github.com/umilISLab/artistic-prompt-interpretation.