papers.description
Alors que le paradigme du « raisonnement profond » a stimulé des avancées significatives dans des domaines vérifiables comme les mathématiques, son application à la génération ouverte et créative reste un défi critique. Les deux méthodes dominantes pour instiller un raisonnement — l'apprentissage par renforcement (RL) et la distillation d'instructions — échouent dans ce domaine ; le RL peine en raison de l'absence de signaux de récompense clairs et de modèles de récompense de haute qualité, tandis que la distillation est prohibitivement coûteuse et limitée par les capacités du modèle enseignant. Pour surmonter ces limitations, nous introduisons le Raisonnement Inverse Ingénierisé (REER), un nouveau paradigme qui modifie fondamentalement l'approche. Au lieu de construire un processus de raisonnement « en avant » par essais et erreurs ou par imitation, REER fonctionne « en arrière » à partir de solutions connues pour découvrir de manière computationnelle le processus latent de raisonnement profond, étape par étape, qui aurait pu les produire. En utilisant cette approche évolutive et sans gradient, nous avons constitué et rendu public DeepWriting-20K, un jeu de données à grande échelle de 20 000 trajectoires de raisonnement profond pour des tâches ouvertes. Notre modèle, DeepWriter-8B, entraîné sur ces données, dépasse non seulement des modèles open-source de référence, mais atteint également des performances compétitives, et parfois supérieures, à celles de modèles propriétaires leaders comme GPT-4o et Claude 3.5.
Le paradigme des modèles de langage à grande échelle (LLMs) s'oriente de plus en plus vers des applications agentiques, où les capacités de navigation sur le web sont essentielles pour extraire des informations de diverses sources en ligne. Cependant, les agents web open-source existants présentent soit des capacités limitées de recherche d'informations pour des tâches complexes, soit un manque de transparence dans leurs implémentations. Dans ce travail, nous identifions que le défi principal réside dans la rareté de données complexes pour la recherche d'informations. Pour pallier cette limitation, nous introduisons WebExplorer : une approche systématique de génération de données basée sur l'exploration par modèle et l'évolution itérative de requêtes longues à courtes. Cette méthode crée des paires requête-réponse complexes nécessitant un raisonnement en plusieurs étapes et une navigation web élaborée. En exploitant notre ensemble de données de haute qualité, nous développons avec succès l'agent web avancé WebExplorer-8B grâce à un affinage supervisé suivi d'un apprentissage par renforcement. Notre modèle supporte une longueur de contexte de 128K et jusqu'à 100 appels d'outils, permettant ainsi la résolution de problèmes à long terme. Sur divers benchmarks de recherche d'informations, WebExplorer-8B atteint des performances de pointe à son échelle. Notamment, en tant que modèle de 8B de paramètres, WebExplorer-8B est capable de rechercher efficacement sur une moyenne de 16 tours après l'entraînement par renforcement, obtenant une précision supérieure à WebSailor-72B sur BrowseComp-en/zh et atteignant les meilleures performances parmi les modèles jusqu'à 100B de paramètres sur WebWalkerQA et FRAMES. Au-delà de ces tâches de recherche d'informations, notre modèle démontre également une forte généralisation sur le benchmark HLE, bien qu'il ne soit entraîné que sur des données de questions-réponses intensives en connaissances. Ces résultats soulignent notre approche comme une voie pratique vers des agents web à long terme.
Nous proposons TraceRL, un cadre d'apprentissage par renforcement conscient des trajectoires pour les modèles de langage à diffusion (DLM) qui intègre une trajectoire d'inférence privilégiée dans le post-entraînement, et qui est applicable à différentes architectures. Doté d'un modèle de valeur basé sur la diffusion qui améliore la stabilité de l'entraînement, nous démontrons une amélioration des performances de raisonnement sur des tâches complexes de mathématiques et de codage. De plus, il peut également être appliqué pour adapter des modèles spécifiques à des blocs à des blocs plus grands, ce qui améliore la flexibilité de l'échantillonnage. En utilisant TraceRL, nous dérivons une série de modèles de langage à diffusion de pointe, nommés TraDo. Bien que plus petits que les modèles AR de 7 milliards de paramètres, TraDo-4B-Instruct surpasse systématiquement ces derniers sur des tâches complexes de raisonnement mathématique. TraDo-8B-Instruct obtient des améliorations relatives de précision de 6,1 % par rapport à Qwen2.5-7B-Instruct et de 51,3 % par rapport à Llama3.1-8B-Instruct sur des benchmarks de raisonnement mathématique. Grâce à l'apprentissage curriculaire, nous dérivons également le premier DLM à long-CoT, surpassant Qwen2.5-7B-Instruct sur MATH500 avec un gain de précision relative de 18,1 %. Pour faciliter la recherche reproductible et les applications pratiques, nous publions un cadre open-source complet pour la construction, l'entraînement et le déploiement de LLM à diffusion sur diverses architectures. Le cadre intègre des techniques accélérées de cache KV et des moteurs d'inférence pour l'inférence et l'apprentissage par renforcement, et inclut des implémentations de diverses méthodes de fine-tuning supervisé et de RL pour les tâches de mathématiques, de codage et générales. Code et Modèles : https://github.com/Gen-Verse/dLLM-RL
L'avènement des modèles de fondation visuels à grande échelle, pré-entraînés sur des images naturelles diversifiées, a marqué un changement de paradigme en vision par ordinateur. Cependant, la manière dont l'efficacité des modèles de fondation visuels de pointe se transfère à des domaines spécialisés, tels que l'imagerie médicale, reste une question ouverte. Ce rapport étudie si DINOv3, un transformeur visuel (ViT) auto-supervisé de pointe doté de fortes capacités dans les tâches de prédiction dense, peut directement servir d'encodeur puissant et unifié pour les tâches de vision médicale sans pré-entraînement spécifique au domaine. Pour y répondre, nous évaluons DINOv3 sur des tâches courantes de vision médicale, incluant la classification 2D/3D et la segmentation sur une large gamme de modalités d'imagerie médicale. Nous analysons systématiquement son extensibilité en faisant varier la taille des modèles et la résolution des images d'entrée. Nos résultats révèlent que DINOv3 montre des performances impressionnantes et établit une nouvelle référence solide. Fait remarquable, il peut même surpasser des modèles de fondation spécifiques au domaine médical comme BiomedCLIP et CT-Net sur plusieurs tâches, bien qu'il ait été entraîné uniquement sur des images naturelles. Cependant, nous identifions des limites claires : les caractéristiques du modèle se dégradent dans des scénarios nécessitant une spécialisation profonde du domaine, tels que les images pathologiques de lames entières (WSIs), la microscopie électronique (EM) et la tomographie par émission de positons (PET). De plus, nous observons que DINOv3 ne suit pas systématiquement la loi d'échelle dans le domaine médical ; les performances n'augmentent pas de manière fiable avec des modèles plus grands ou des résolutions de caractéristiques plus fines, montrant des comportements d'échelle variés selon les tâches. En fin de compte, notre travail établit DINOv3 comme une référence solide, dont les puissantes caractéristiques visuelles peuvent servir de prior robuste pour de multiples tâches médicales complexes. Cela ouvre des perspectives prometteuses, telles que l'exploitation de ses caractéristiques pour renforcer la cohérence multivue dans la reconstruction 3D.
Le raisonnement visuel, un pilier de l'intelligence humaine, englobe des processus perceptifs et logiques complexes essentiels pour résoudre divers problèmes visuels. Bien que les avancées en vision par ordinateur aient produit des modèles puissants pour diverses tâches perceptives, leur utilisation pour un raisonnement visuel général reste un défi. Les travaux antérieurs montrent que l'amélioration des LLM avec des modèles de vision par un finetuning supervisé améliore les performances, mais se heurte à des limitations clés telles que la génération coûteuse de données, la dépendance à un filtrage minutieux des données et une mauvaise généralisation. Pour résoudre ces problèmes, nous proposons ReVPT pour améliorer les capacités des LLM multimodaux à raisonner et à utiliser des outils visuels grâce à l'apprentissage par renforcement. Nous introduisons un nouvel algorithme de RL basé sur GRPO, conçu pour entraîner les modèles à raisonner avec une suite de quatre outils visuels. À travers des expériences approfondies, nous montrons que notre méthode atteint des performances de pointe sur plusieurs benchmarks axés sur la perception, notamment SAT, CV-Bench, BLINK et MMStar, surpassant significativement les bases de référence du finetuning supervisé et du RL basé sur le texte. Notamment, nos modèles ReVPT-3B et ReVPT-7B surpassent les modèles instruct de 9,03 % et 9,44 % sur CV-Bench. Enfin, nous apportons à la communauté de nouvelles perspectives sur l'utilisation des outils visuels basée sur le RL grâce à des ablations approfondies. Notre code est disponible à l'adresse https://github.com/ls-kelvin/REVPT.
Les systèmes de recherche approfondie, des IA agentiques qui résolvent des tâches complexes et multi-étapes en coordonnant le raisonnement, la recherche sur le web ouvert et les fichiers utilisateurs, ainsi que l’utilisation d’outils, évoluent vers des déploiements hiérarchiques avec un Planificateur, un Coordinateur et des Exécuteurs. En pratique, l’entraînement de piles entières de bout en bout reste impraticable, donc la plupart des travaux se concentrent sur l’entraînement d’un seul planificateur connecté à des outils essentiels tels que la recherche, la navigation et le code. Bien que l’apprentissage supervisé par fine-tuning (SFT) assure la fidélité aux protocoles, il souffre de biais d’imitation et d’exposition et sous-utilise les retours d’environnement. Les méthodes d’alignement des préférences, comme DPO, dépendent de schémas et de proxys, sont hors politique et faibles pour l’attribution de crédit à long terme et les compromis multi-objectifs. Une autre limitation du SFT et du DPO est leur dépendance aux points de décision et sous-compétences définis par l’homme via la conception de schémas et les comparaisons étiquetées. L’apprentissage par renforcement s’aligne avec la recherche en boucle fermée et l’interaction avec les outils en optimisant les politiques au niveau des trajectoires, permettant l’exploration, les comportements de récupération et une attribution de crédit principée, tout en réduisant la dépendance à ces a priori humains et aux biais des évaluateurs. À notre connaissance, cette étude est la première dédiée aux fondements de l’apprentissage par renforcement (RL) pour les systèmes de recherche approfondie. Elle systématise les travaux après DeepSeek-R1 selon trois axes : (i) la synthèse et la curation des données ; (ii) les méthodes de RL pour la recherche agentique, couvrant la stabilité, l’efficacité des échantillons, la gestion de contextes longs, la conception de récompenses et de crédits, l’optimisation multi-objectifs et l’intégration multimodale ; et (iii) les systèmes et frameworks d’entraînement RL pour agents. Nous abordons également l’architecture et la coordination des agents, ainsi que l’évaluation et les benchmarks, incluant les tâches récentes de questions-réponses (QA), de questions-réponses visuelles (VQA), de synthèse de textes longs et d’interaction avec des outils ancrés dans un domaine. Nous distillons les motifs récurrents, identifions les goulots d’étranglement infrastructurels et proposons des conseils pratiques pour entraîner des agents de recherche approfondie robustes et transparents avec le RL.
L'apprentissage multitâche (MTL) est souvent réalisé en fusionnant des ensembles de données avant l'affinage, mais la disponibilité croissante de modèles affinés a conduit à de nouvelles approches telles que la fusion de modèles via l'arithmétique des tâches. Un défi majeur dans ce contexte est l'interférence entre les tâches, qui s'aggrave à mesure que le nombre de tâches augmente. Nous proposons une méthode qui fusionne des modèles entraînés sur différentes tâches en un seul modèle, tout en maintenant des performances solides sur toutes les tâches. Notre approche exploite la divergence de Jensen-Shannon pour guider le processus de fusion sans nécessiter de données étiquetées supplémentaires, et équilibre automatiquement l'importance des tâches. Contrairement aux méthodes existantes, notre approche reste robuste à mesure que le nombre de tâches augmente et surpasse systématiquement les travaux antérieurs.
Nous présentons Paper2Agent, un cadre automatisé qui transforme des articles de recherche en agents d’intelligence artificielle. Paper2Agent convertit les résultats de recherche d’artefacts passifs en systèmes actifs capables d’accélérer leur utilisation, adoption et découverte en aval. Les articles de recherche conventionnels exigent des lecteurs un effort substantiel pour comprendre et adapter le code, les données et les méthodes d’un article à leur propre travail, créant ainsi des obstacles à la diffusion et à la réutilisation. Paper2Agent résout ce problème en convertissant automatiquement un article en un agent IA qui agit comme un assistant de recherche compétent. Il analyse systématiquement l’article et la base de code associée à l’aide de plusieurs agents pour construire un serveur de Protocole de Contexte de Modèle (MCP), puis génère et exécute itérativement des tests pour affiner et renforcer le MCP résultant. Ces MCP d’articles peuvent ensuite être connectés de manière flexible à un agent de discussion (par exemple, Claude Code) pour exécuter des requêtes scientifiques complexes via le langage naturel tout en invoquant des outils et des workflows issus de l’article original. Nous démontrons l’efficacité de Paper2Agent dans la création d’agents d’articles fiables et performants à travers des études de cas approfondies. Paper2Agent a créé un agent qui exploite AlphaGenome pour interpréter des variants génomiques, ainsi que des agents basés sur ScanPy et TISSUE pour réaliser des analyses de transcriptomique unicellulaire et spatiale. Nous validons que ces agents d’articles peuvent reproduire les résultats de l’article original et exécuter correctement de nouvelles requêtes utilisateur. En transformant des articles statiques en agents IA dynamiques et interactifs, Paper2Agent introduit un nouveau paradigme pour la diffusion des connaissances et pose les bases d’un écosystème collaboratif de co-scientifiques IA.
Les modèles vision-langage (VLMs) ont démontré un succès remarquable dans diverses tâches visuelles, mais leurs performances se dégradent dans des environnements visuels complexes. Bien que les approches d'amélioration existantes nécessitent un entraînement supplémentaire, reposent sur des outils de segmentation externes ou opèrent à des niveaux grossiers, elles négligent la capacité intrinsèque des VLMs. Pour combler cette lacune, nous étudions les schémas d'attention des VLMs et découvrons que : (1) la complexité visuelle est fortement corrélée à l'entropie de l'attention, affectant négativement les performances de raisonnement ; (2) l'attention s'affine progressivement, passant d'un balayage global dans les couches superficielles à une convergence focalisée dans les couches profondes, avec un degré de convergence déterminé par la complexité visuelle. (3) Théoriquement, nous prouvons que le contraste des cartes d'attention entre les requêtes générales et les requêtes spécifiques à une tâche permet de décomposer le signal visuel en composantes de signaux sémantiques et de bruit visuel. Sur la base de ces observations, nous proposons le Raffinement d'Attention Contrastive pour l'Amélioration Visuelle (CARVE), une méthode sans entraînement qui extrait les signaux visuels pertinents pour la tâche par contraste d'attention au niveau des pixels. Des expériences approfondies démontrent que CARVE améliore systématiquement les performances, atteignant jusqu'à 75 % d'amélioration sur des modèles open-source. Notre travail fournit des insights critiques sur l'interaction entre la complexité visuelle et les mécanismes d'attention, offrant une voie efficace pour améliorer le raisonnement visuel grâce au contraste d'attention.
Les modèles unifiés de compréhension et de génération multimodaux ont récemment enregistré des améliorations significatives dans la capacité de génération d'images. Cependant, un écart important persiste en matière de suivi des instructions et de préservation des détails par rapport à des systèmes qui intègrent étroitement la compréhension et la génération, tels que GPT-4o. Motivés par les avancées récentes dans le raisonnement entrelacé, nous explorons si un tel raisonnement peut encore améliorer la génération de texte à image (Text-to-Image, T2I). Nous introduisons le cadre de Génération par Raisonnement Entrelacé (Interleaving Reasoning Generation, IRG), qui alterne entre la réflexion textuelle et la synthèse d'images : le modèle produit d'abord une réflexion textuelle pour guider une image initiale, puis réfléchit au résultat pour affiner les détails fins, la qualité visuelle et l'esthétique tout en préservant la sémantique. Pour entraîner efficacement IRG, nous proposons l'Apprentissage de Génération par Raisonnement Entrelacé (Interleaving Reasoning Generation Learning, IRGL), qui cible deux sous-objectifs : (1) renforcer l'étape initiale de réflexion et de génération pour établir le contenu principal et la qualité de base, et (2) permettre une réflexion textuelle de haute qualité et une mise en œuvre fidèle de ces améliorations dans une image ultérieure. Nous avons constitué IRGL-300K, un ensemble de données organisé en six modes d'apprentissage décomposés qui couvrent conjointement l'apprentissage de la réflexion textuelle et les trajectoires complètes de réflexion-image. Partant d'un modèle de base unifié qui émet naturellement des sorties texte-image entrelacées, notre entraînement en deux étapes construit d'abord une réflexion et une rétroaction robustes, puis affine efficacement le pipeline IRG sur les données de trajectoires complètes de réflexion-image. Des expériences approfondies montrent des performances de pointe, avec des gains absolus de 5 à 10 points sur GenEval, WISE, TIIF, GenAI-Bench et OneIG-EN, ainsi que des améliorations substantielles en qualité visuelle et en fidélité des détails fins. Le code, les poids du modèle et les ensembles de données seront publiés sur : https://github.com/Osilly/Interleaving-Reasoning-Generation.
Nous présentons UniVerse-1, un modèle unifié de type Veo-3 capable de générer simultanément des contenus audio et vidéo coordonnés. Pour améliorer l'efficacité de l'entraînement, nous évitons l'entraînement à partir de zéro et utilisons plutôt une technique de fusion d'experts (SoE). Cette approche fusionne en profondeur les blocs correspondants de modèles experts pré-entraînés pour la génération de vidéo et de musique, exploitant ainsi pleinement leurs capacités fondamentales. Pour garantir des annotations précises et un alignement temporel à la fois pour les sons ambiants et la parole avec le contenu vidéo, nous avons développé un pipeline d'annotation en ligne qui traite les données d'entraînement nécessaires et génère les étiquettes pendant le processus d'entraînement. Cette stratégie évite la dégradation des performances souvent causée par des annotations textuelles mal alignées. Grâce à la synergie de ces techniques, notre modèle, après avoir été affiné sur environ 7 600 heures de données audio-vidéo, produit des résultats avec des visuels et des sons ambiants bien coordonnés, ainsi qu'un fort alignement pour la génération de parole. Pour évaluer systématiquement notre méthode proposée, nous introduisons Verse-Bench, un nouvel ensemble de données de référence. Dans le but de faire progresser la recherche en génération audio-vidéo et de combler l'écart de performance avec les modèles de pointe tels que Veo3, nous rendons notre modèle et notre code publics. Nous espérons que cette contribution profitera à la communauté de recherche au sens large. Page du projet : https://dorniwang.github.io/UniVerse-1/.
La génération de texte à image (T2I) vise à synthétiser des images à partir d’indications textuelles, qui spécifient conjointement ce qui doit être montré et impliquent ce qui peut être inféré, correspondant ainsi à deux capacités fondamentales : la composition et le raisonnement. Cependant, avec les avancées récentes des modèles T2I dans le raisonnement au-delà de la composition, les benchmarks existants révèlent des limites évidentes dans leur capacité à fournir des évaluations complètes à travers et au sein de ces compétences. Parallèlement, ces avancées permettent également aux modèles de traiter des indications plus complexes, alors que les benchmarks actuels restent limités à une faible densité de scènes et à un raisonnement simplifié de type un-à-un. Pour répondre à ces limites, nous proposons T2I-CoReBench, un benchmark complet et complexe qui évalue à la fois les capacités de composition et de raisonnement des modèles T2I. Pour garantir l'exhaustivité, nous structurons la composition autour des éléments d'un graphe de scène (instance, attribut et relation) et le raisonnement autour du cadre philosophique de l'inférence (déductive, inductive et abductive), formulant ainsi une taxonomie d'évaluation en 12 dimensions. Pour accroître la complexité, inspirée par les complexités inhérentes des scénarios réels, nous concevons chaque indication avec une densité compositionnelle élevée pour la composition et une inférence à plusieurs étapes pour le raisonnement. Nous associons également chaque indication à une liste de vérification qui spécifie des questions individuelles de type oui/non pour évaluer chaque élément visé de manière indépendante, facilitant ainsi une évaluation fine et fiable. En termes de statistiques, notre benchmark comprend 1 080 indications complexes et environ 13 500 questions de vérification. Les expériences menées sur 27 modèles T2I actuels révèlent que leur capacité de composition reste limitée dans des scénarios complexes à haute densité, tandis que la capacité de raisonnement est encore plus en retard, constituant un goulot d'étranglement critique, avec tous les modèles peinant à inférer des éléments implicites à partir des indications. Notre page de projet : https://t2i-corebench.github.io/.
L'intégration des modèles de langage à grande échelle (LLMs) dans la démonstration automatique de théorèmes a montré un immense potentiel, mais elle est fondamentalement limitée par les défis liés à la montée en puissance de l'apprentissage par renforcement (RL) pendant l'entraînement et du calcul pendant l'inférence. Cet article présente BFS-Prover-V2, un système conçu pour résoudre ce double problème de montée en puissance. Nous présentons deux innovations principales. La première est un nouveau cadre de RL multi-tours hors politique pour améliorer continuellement les performances du démonstrateur pas-à-pas basé sur un LLM pendant l'entraînement. Inspiré des principes d'AlphaZero, ce cadre utilise un pipeline d'itération experte en plusieurs étapes, incluant un filtrage adaptatif des données au niveau tactique et un réentraînement périodique, pour surmonter les plateaux de performance qui limitent généralement le RL à long terme dans les agents basés sur des LLMs. La seconde innovation est une architecture de recherche multi-agents améliorée par un planificateur, qui permet de mettre à l'échelle les capacités de raisonnement pendant l'inférence. Cette architecture emploie un modèle de raisonnement général comme planificateur de haut niveau pour décomposer itérativement des théorèmes complexes en une séquence de sous-objectifs plus simples. Cette approche hiérarchique réduit considérablement l'espace de recherche, permettant à une équipe d'agents démonstrateurs parallèles de collaborer efficacement en exploitant un cache de preuves partagé. Nous démontrons que cette double approche de mise à l'échelle produit des résultats de pointe sur des benchmarks établis en mathématiques formelles. BFS-Prover-V2 atteint respectivement 95,08 % et 41,4 % sur les ensembles de test MiniF2F et ProofNet. Bien que démontrées dans le domaine des mathématiques formelles, les techniques de RL et d'inférence présentées dans ce travail ont un intérêt plus large et peuvent être appliquées à d'autres domaines nécessitant un raisonnement multi-tours à long terme et une recherche complexe.
Doterr les grands modèles de langage (LLMs) de capacités complexes de raisonnement entrelacé et d'utilisation d'outils est devenu un axe clé de la recherche en IA agentique, notamment avec les récents progrès des modèles orientés raisonnement (« pensants »). Ces capacités sont essentielles pour débloquer un certain nombre d'applications importantes. L'une de ces applications est la Recherche Approfondie (Deep Research, DR), qui nécessite une recherche extensive et un raisonnement sur de nombreuses sources. Notre travail dans cet article se concentre sur le développement de modèles autonomes à agent unique natifs pour la DR, intégrant un minimum de crawling web et d'outils Python. Contrairement aux systèmes multi-agents, où les agents assument des rôles prédéfinis et reçoivent des instructions à chaque étape d'un workflow statique, un agent unique autonome détermine dynamiquement sa prochaine action en fonction du contexte, sans directive manuelle. Alors que les travaux précédents ont proposé des recettes d'entraînement pour des LLMs de base ou ajustés par instruction, nous nous concentrons sur l'apprentissage par renforcement continu (RL) de modèles optimisés pour le raisonnement afin d'améliorer davantage les compétences agentiques tout en préservant la capacité de raisonnement. À cette fin, nous proposons une recette RL simple utilisant entièrement des données synthétiques, que nous appliquons à divers LLMs open-source. Notre meilleure variante, SFR-DR-20B, atteint jusqu'à 28,7 % sur le benchmark Humanity's Last Exam. De plus, nous menons des expériences d'analyse clés pour fournir des insights supplémentaires sur nos méthodologies.
La mise à l'échelle au moment du test augmente les calculs lors de l'inférence en permettant aux modèles de générer des chaînes de raisonnement longues, et a démontré de solides performances dans de nombreux domaines. Cependant, dans ce travail, nous montrons que cette approche n'est pas encore efficace pour les tâches nécessitant une connaissance approfondie, où une grande précision factuelle et un faible taux d'hallucinations sont essentiels. Nous menons une évaluation complète de la mise à l'échelle au moment du test en utilisant 12 modèles de raisonnement sur deux benchmarks exigeant une connaissance approfondie. Nos résultats révèlent qu'augmenter les calculs au moment du test n'améliore pas systématiquement la précision et, dans de nombreux cas, cela entraîne même plus d'hallucinations. Nous analysons ensuite comment un raisonnement prolongé affecte le comportement d'hallucination. Nous constatons que la réduction des hallucinations résulte souvent du choix du modèle de s'abstenir après avoir réfléchi davantage, plutôt que d'une amélioration de la récupération factuelle. Inversement, pour certains modèles, un raisonnement plus long encourage des tentatives sur des questions précédemment sans réponse, dont beaucoup aboutissent à des hallucinations. Des études de cas montrent qu'un raisonnement prolongé peut induire un biais de confirmation, conduisant à des hallucinations trop confiantes. Malgré ces limitations, nous observons que, par rapport à l'absence de réflexion, permettre la réflexion reste bénéfique. Le code et les données sont disponibles à l'adresse https://github.com/XuZhao0/tts-knowledge.
L'intégration des modèles de langage de grande taille (LLMs) dans diverses applications a accru le besoin de réponses structurées et fiables. Un défi majeur dans les systèmes de génération augmentée par récupération (RAG) consiste à garantir que les sorties respectent les formats attendus tout en minimisant les hallucinations. Cette étude examine le rôle du décodage guidé dans les systèmes RAG, en comparant trois méthodes : Outlines, XGrammar et LM Format Enforcer, dans différents contextes d'invites multi-tours (0 tour, 1 tour et 2 tours). En évaluant les taux de réussite, les taux d'hallucination et la qualité des sorties, nous fournissons des insights sur leurs performances et leur applicabilité. Nos résultats révèlent comment les interactions multi-tours influencent le décodage guidé, mettant en lumière des variations de performances inattendues qui peuvent orienter le choix des méthodes pour des cas d'usage spécifiques. Ce travail approfondit la compréhension de la génération de sorties structurées dans les systèmes RAG, offrant à la fois des perspectives théoriques et des conseils pratiques pour le déploiement des LLMs.
L'humour noir dans les mèmes en ligne présente des défis uniques en raison de sa dépendance à des indices implicites, sensibles et contextuels sur le plan culturel. Pour pallier le manque de ressources et de méthodes permettant de détecter l'humour noir dans le contenu multimodal, nous introduisons un nouvel ensemble de données composé de 4 379 mèmes Reddit annotés pour l'humour noir, la catégorie cible (genre, santé mentale, violence, race, handicap et autres) et une évaluation d'intensité à trois niveaux (léger, modéré, sévère). En nous appuyant sur cette ressource, nous proposons un cadre renforcé par le raisonnement qui génère d'abord des explications structurées pour chaque mème à l'aide d'un modèle de vision et de langage à grande échelle (VLM). Grâce à une boucle d'auto-réflexion par inversion de rôle, le VLM adopte la perspective de l'auteur pour affiner itérativement ses explications, garantissant ainsi leur exhaustivité et leur cohérence. Nous extrayons ensuite des caractéristiques textuelles à la fois de la transcription OCR et du raisonnement auto-affiné via un encodeur de texte, tandis que les caractéristiques visuelles sont obtenues à l'aide d'un transformeur de vision. Un réseau de raisonnement croisé à trois flux (TCRNet) fusionne ces trois flux — texte, image et raisonnement — via des mécanismes d'attention par paires, produisant une représentation unifiée pour la classification. Les résultats expérimentaux démontrent que notre approche surpasse des modèles de référence solides dans trois tâches : la détection de l'humour noir, l'identification de la cible et la prédiction de l'intensité. L'ensemble de données, les annotations et le code sont mis à disposition pour faciliter des recherches ultérieures sur la compréhension de l'humour multimodal et la modération de contenu. Le code et l'ensemble de données sont disponibles à l'adresse suivante : https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning
Nous présentons Llama-GENBA-10B, un modèle de base trilingue visant à réduire le biais anglocentrique des grands modèles de langage. Construit sur Llama 3.1-8B et étendu à 10 milliards de paramètres, Llama-GENBA-10B a été pré-entraîné de manière continue sur 164 milliards de tokens (82 milliards en anglais, 82 milliards en allemand et 80 millions en bavarois), équilibrant les ressources tout en évitant la domination de l’anglais. Destiné à la communauté allemande du traitement automatique des langues (TAL), le modèle promeut également le bavarois en tant que langue à ressources limitées. Le développement a relevé quatre défis majeurs : (1) la constitution d’un corpus multilingue malgré la rareté des données en bavarois, (2) la création d’un tokenizer unifié pour l’anglais, l’allemand et le bavarois, (3) l’optimisation de l’architecture et des hyperparamètres de ratio linguistique pour le transfert translingue, et (4) l’établissement de la première suite d’évaluation trilingue standardisée en traduisant des benchmarks allemands en bavarois. Les évaluations montrent que Llama-GENBA-10B obtient des performances translingues solides, avec sa variante fine-tunée surpassant Apertus-8B-2509 et gemma-2-9b en bavarois et s’imposant comme le meilleur modèle de sa catégorie pour cette langue, tout en surpassant EuroLLM en anglais et en égalant ses résultats en allemand. L’entraînement sur le Cerebras CS-2 a démontré une efficacité dans le pré-entraînement multilingue à grande échelle avec une consommation énergétique documentée, offrant un modèle pour des modèles de base inclusifs intégrant des langues à ressources limitées.
L'édition d'images basée sur le glissement (drag-based) s'est imposée comme un paradigme puissant pour la manipulation intuitive d'images. Cependant, les approches existantes reposent principalement sur la manipulation de l'espace latent des modèles génératifs, ce qui entraîne une précision limitée, un retour d'information retardé et des contraintes spécifiques aux modèles. Par conséquent, nous présentons Inpaint4Drag, un nouveau cadre qui décompose l'édition basée sur le glissement en un warp bidirectionnel dans l'espace des pixels et une inpainting d'image. Inspirés par la déformation élastique des objets dans le monde physique, nous traitons les régions de l'image comme des matériaux déformables qui conservent une forme naturelle sous la manipulation de l'utilisateur. Notre méthode permet des prévisualisations de warp en temps réel (0,01s) et une inpainting efficace (0,3s) à une résolution de 512x512, améliorant considérablement l'expérience d'interaction par rapport aux méthodes existantes qui nécessitent plusieurs minutes par modification. En transformant directement les entrées de glissement en formats d'inpainting standard, notre approche sert d'adaptateur universel pour tout modèle d'inpainting sans modification de l'architecture, héritant automatiquement de toutes les améliorations futures de la technologie d'inpainting. Des expériences approfondies démontrent que notre méthode atteint une qualité visuelle supérieure et un contrôle précis tout en maintenant des performances en temps réel. Page du projet : https://visual-ai.github.io/inpaint4drag/
Dans ce document de position, nous abordons l'écart persistant entre les capacités croissantes de l'IA et les progrès limités en matière de sécurité. Les paradigmes existants se divisent en deux approches : « Rendre l'IA sûre », qui applique des mécanismes d'alignement et de contrôle a posteriori mais reste fragile et réactive, et « Créer une IA sûre », qui met l'accent sur la sécurité intrinsèque mais peine à gérer les risques imprévus dans des environnements ouverts. Nous proposons donc la sécurité par coévolution comme une nouvelle formulation du paradigme « Créer une IA sûre », inspirée par l'immunité biologique, où la sécurité devient un processus dynamique, antagoniste et d'apprentissage continu. Pour concrétiser cette vision, nous introduisons R²IA — IA Résistante et Résiliente — comme un cadre pratique qui unit la résistance aux menaces connues et la résilience face aux risques imprévus. R²IA intègre des modèles de sécurité rapides et lents, la simulation et la vérification adverses via un tunnel de sécurité, ainsi que des boucles de rétroaction continues qui guident la coévolution de la sécurité et des capacités. Nous soutenons que ce cadre offre une voie évolutive et proactive pour maintenir une sécurité continue dans des environnements dynamiques, en traitant à la fois les vulnérabilités à court terme et les risques existentiels à long terme, alors que l'IA progresse vers l'AGI et l'ASI.
Les modèles Vision-Langage-Action (VLA) représentent une voie prometteuse pour la réalisation d’agents incarnés généralistes capables de s’adapter rapidement à de nouvelles tâches, modalités et environnements. Cependant, les méthodes d’interprétation et de pilotage des VLA restent loin derrière les pipelines classiques de robotique, qui s’appuient sur des modèles explicites de cinématique, de dynamique et de contrôle. Ce manque de compréhension mécaniste constitue un défi majeur pour le déploiement de politiques apprises dans la robotique réelle, où la robustesse et l’explicabilité sont essentielles. Inspirés par les avancées en interprétabilité mécaniste des grands modèles de langage, nous introduisons le premier cadre d’interprétation et de pilotage des VLA via leurs représentations internes, permettant une intervention directe sur le comportement du modèle au moment de l’inférence. Nous projetons les activations feedforward au sein des couches de transformeurs sur la base d’embeddings de tokens, identifiant des directions sémantiques clairsemées – telles que la vitesse et la direction – qui sont causalement liées à la sélection d’actions. En exploitant ces résultats, nous proposons une méthode de pilotage des activations à usage général qui module le comportement en temps réel, sans nécessiter de fine-tuning, de signaux de récompense ou d’interaction avec l’environnement. Nous évaluons cette méthode sur deux VLA open-source récents, Pi0 et OpenVLA, et démontrons un contrôle comportemental zero-shot en simulation (LIBERO) et sur un robot physique (UR5). Ce travail montre que les composants interprétables des VLA incarnés peuvent être systématiquement exploités pour le contrôle – établissant un nouveau paradigme pour des modèles de fondation transparents et pilotables en robotique.
Pour améliorer l'efficacité des agents d'interface graphique (GUI) sur diverses plateformes telles que les smartphones et les ordinateurs, un paradigme hybride combinant des opérations flexibles de GUI avec des raccourcis efficaces (par exemple, API, deep links) émerge comme une direction prometteuse. Cependant, un cadre pour évaluer systématiquement ces agents hybrides reste peu exploré. Pour combler cette lacune, nous introduisons MAS-Bench, un benchmark qui innove dans l'évaluation des agents hybrides GUI-raccourcis, en se concentrant spécifiquement sur le domaine mobile. Au-delà de l'utilisation de raccourcis prédéfinis, MAS-Bench évalue la capacité d'un agent à générer de manière autonome des raccourcis en découvrant et en créant des workflows réutilisables et à faible coût. Il propose 139 tâches complexes réparties sur 11 applications réelles, une base de connaissances de 88 raccourcis prédéfinis (API, deep-links, scripts RPA) et 7 métriques d'évaluation. Les tâches sont conçues pour être résolues via des opérations exclusivement basées sur la GUI, mais peuvent être considérablement accélérées par l'intégration intelligente de raccourcis. Les expériences montrent que les agents hybrides atteignent des taux de réussite et une efficacité significativement plus élevés que leurs homologues basés uniquement sur la GUI. Ce résultat démontre également l'efficacité de notre méthode pour évaluer les capacités de génération de raccourcis d'un agent. MAS-Bench comble une lacune critique en matière d'évaluation, offrant une plateforme fondatrice pour les avancées futures dans la création d'agents intelligents plus efficaces et robustes.
Les modèles vision-langage (VLMs) comme CLIP ont démontré des capacités impressionnantes d'apprentissage zero-shot et few-shot dans diverses applications. Cependant, l'adaptation de ces modèles à de nouveaux domaines à granularité fine reste difficile en raison de la dépendance à l'ingénierie des prompts et du coût élevé du fine-tuning complet du modèle. Les approches d'adaptation existantes reposent sur des composants augmentés, tels que les tokens de prompt et les modules d'adaptation, ce qui peut limiter la qualité de l'adaptation, déstabiliser le modèle et compromettre les riches connaissances acquises lors du pré-entraînement. Dans ce travail, nous présentons CLIP-SVD, une nouvelle technique d'adaptation multi-modale et économe en paramètres qui exploite la Décomposition en Valeurs Singulières (SVD) pour modifier l'espace des paramètres internes de CLIP sans injecter de modules supplémentaires. Plus précisément, nous effectuons un fine-tuning uniquement des valeurs singulières des matrices de paramètres de CLIP pour redimensionner les vecteurs de base en vue de l'adaptation au domaine, tout en conservant le modèle pré-entraîné. Cette conception permet une amélioration des performances d'adaptation en utilisant seulement 0,04 % des paramètres totaux du modèle et une meilleure préservation de sa capacité de généralisation. CLIP-SVD obtient des résultats de classification de pointe sur 11 ensembles de données naturelles et 10 biomédicales, surpassant les méthodes précédentes en termes de précision et de généralisation dans des contextes few-shot. De plus, nous exploitons une approche basée sur le langage naturel pour analyser l'efficacité et la dynamique de l'adaptation de CLIP, permettant ainsi une interprétabilité de CLIP-SVD. Le code est disponible publiquement à l'adresse https://github.com/HealthX-Lab/CLIP-SVD.
La rareté de données de haute qualité et logiquement solides constitue un goulot d'étranglement critique pour l'amélioration du raisonnement mathématique des modèles de langage de grande taille (LLMs). Notre travail relève ce défi en transformant des décennies de recherche en démonstration automatique de théorèmes en un moteur de données scalable. Plutôt que de s'appuyer sur des LLMs sujets aux erreurs ou sur une syntaxe complexe d'assistants de preuve comme Lean et Isabelle, notre cadre exploite les capacités de saturation de E-prover sur la vaste bibliothèque d'axiomes TPTP pour dériver un corpus massif de théorèmes garantis valides. Notre pipeline est à la fois rigoureux et simple : saturer les axiomes, filtrer les théorèmes "intéressants", et générer des tâches. En excluant les LLMs du processus, nous éliminons les erreurs factuelles par construction. Ces données purement symboliques sont ensuite transformées en trois défis à difficulté contrôlée : vérification d'implication, sélection de prémisses et reconstruction de preuve. Nos expériences en zero-shot sur des modèles de pointe révèlent une faiblesse évidente : les performances s'effondrent sur les tâches nécessitant un raisonnement profond et structurel. Notre cadre fournit à la fois l'outil de diagnostic pour mesurer cet écart et une source scalable de données d'entraînement symboliques pour y remédier. Nous mettons le code et les données à disposition du public. https://github.com/sileod/reasoning_core https://hf.co/datasets/reasoning-core/rc1
L’alignement des nuages de points LiDAR est fondamental pour la perception et la navigation robotiques. Cependant, dans des environnements géométriquement dégénérés ou étroits, les problèmes d’alignement deviennent mal conditionnés, entraînant des solutions instables et une précision dégradée. Bien que les approches existantes tentent de résoudre ces problèmes, elles ne parviennent pas à relever le défi central : détecter, interpréter et résoudre avec précision ce mauvais conditionnement, ce qui conduit à des détections manquées ou à des solutions corrompues. Dans cette étude, nous présentons DCReg, un cadre méthodologique qui aborde systématiquement les problèmes d’alignement mal conditionnés à travers trois innovations intégrées. Premièrement, DCReg réalise une détection fiable du mauvais conditionnement en employant une décomposition de Schur sur la matrice hessienne. Cette technique découple le problème d’alignement en sous-espaces de rotation et de translation distincts, éliminant les effets de couplage qui masquent les schémas de dégénérescence dans les analyses conventionnelles. Deuxièmement, au sein de ces sous-espaces distincts, nous développons des techniques de caractérisation quantitative qui établissent des correspondances explicites entre les espaces propres mathématiques et les directions de mouvement physique, fournissant des informations exploitables sur les mouvements spécifiques qui manquent de contraintes. Enfin, en s’appuyant sur ce sous-espace distinct, nous concevons une stratégie de mitigation ciblée : un nouveau préconditionneur qui stabilise sélectivement uniquement les directions mal conditionnées identifiées, tout en préservant toutes les informations bien contraintes dans l’espace observable. Cela permet une optimisation efficace et robuste via la méthode du Gradient Conjugué Préconditionné avec un seul paramètre physiquement interprétable. Des expériences approfondies démontrent que DCReg améliore la précision de localisation d’au moins 20 % à 50 % et accélère les calculs de 5 à 100 fois par rapport aux méthodes de pointe dans divers environnements. Notre implémentation sera disponible à l’adresse https://github.com/JokerJohn/DCReg.