Articles de recherche en IA sélectionnés quotidiennement avec traductions
Bien que les grands modèles de langage (LLMs) basés sur le raisonnement aient excellé en mathématiques et en programmation, leurs capacités dans le domaine des questions-réponses médicales nécessitant une expertise approfondie restent peu explorées. Pour remédier à cela, nous présentons ReasonMed, le plus grand ensemble de données dédié au raisonnement médical, comprenant 370 000 exemples de haute qualité distillés à partir de 1,7 million de chemins de raisonnement initiaux générés par divers LLMs. ReasonMed est construit grâce à un processus de vérification et d'affinage multi-agent, où nous concevons un « Error Refiner » pour améliorer les chemins de raisonnement en identifiant et en corrigeant les étapes sujettes à erreurs signalées par un vérificateur. En exploitant ReasonMed, nous étudions systématiquement les meilleures pratiques pour entraîner des modèles de raisonnement médical et constatons que la combinaison d'un raisonnement détaillé en chaîne de pensée (Chain-of-Thought, CoT) avec des résumés de réponses concis constitue la stratégie de fine-tuning la plus efficace. Sur la base de cette stratégie, nous entraînons ReasonMed-7B, qui établit un nouveau référentiel pour les modèles de moins de 10 milliards de paramètres, surpassant le précédent meilleur modèle de 4,17 % et dépassant même LLaMA3.1-70B sur PubMedQA de 4,60 %.
La construction de jeux de données à grande échelle pour la tâche de résolution d'issues GitHub est essentielle à la fois pour l'entraînement et l'évaluation des capacités en génie logiciel des modèles de langage de grande taille (LLMs). Cependant, le processus traditionnel de création de tels benchmarks est notoirement difficile et laborieux, en particulier lors des étapes de configuration des environnements d'évaluation, de notation des résultats de test et de validation des instances de tâches. Dans cet article, nous proposons SWE-Factory, un pipeline automatisé conçu pour relever ces défis. Pour résoudre ces problèmes, notre pipeline intègre trois composants automatisés essentiels. Premièrement, nous introduisons SWE-Builder, un système multi-agents qui automatise la construction des environnements d'évaluation, en utilisant quatre agents spécialisés qui fonctionnent dans une boucle collaborative et itérative, et en exploitant un pool de mémoire d'environnement pour améliorer l'efficacité. Deuxièmement, nous introduisons une méthode de notation standardisée basée sur les codes de sortie, éliminant ainsi le besoin d'écrire manuellement des analyseurs personnalisés. Enfin, nous automatisons le processus de validation fail2pass en utilisant ces signaux de codes de sortie fiables. Des expériences sur 671 issues dans quatre langages de programmation montrent que notre pipeline peut construire efficacement des instances de tâches valides ; par exemple, avec GPT-4.1-mini, notre SWE-Builder construit 269 instances valides à un coût de 0,045 par instance, tandis qu'avec Gemini-2.5-flash, il atteint des performances comparables au coût le plus bas de 0,024 par instance. Nous démontrons également que notre méthode de notation basée sur les codes de sortie atteint une précision de 100 % par rapport à l'inspection manuelle, et que notre validation automatisée fail2pass atteint une précision de 0,92 et un rappel de 1,00. Nous espérons que notre pipeline automatisé accélérera la collecte de jeux de données à grande échelle et de haute qualité pour la résolution d'issues GitHub, à la fois pour l'entraînement et l'évaluation. Notre code et nos jeux de données sont disponibles à l'adresse https://github.com/DeepSoftwareAnalytics/swe-factory.
La restauration d'images vise à récupérer des images dégradées. Cependant, les méthodes de restauration basées sur la diffusion, bien que très performantes dans la restauration d'images naturelles, peinent souvent à reconstruire fidèlement les régions textuelles dans les images dégradées. Ces méthodes génèrent fréquemment des motifs textuels plausibles mais incorrects, un phénomène que nous appelons hallucination texte-image. Dans cet article, nous introduisons la restauration d'images consciente du texte (Text-Aware Image Restoration, TAIR), une nouvelle tâche de restauration qui exige la récupération simultanée des contenus visuels et de la fidélité textuelle. Pour relever ce défi, nous présentons SA-Text, un benchmark à grande échelle de 100 000 images de scènes de haute qualité, annotées de manière dense avec des instances de texte diverses et complexes. De plus, nous proposons un cadre de diffusion multi-tâches, appelé TeReDiff, qui intègre les caractéristiques internes des modèles de diffusion dans un module de détection de texte, permettant aux deux composants de bénéficier d'un entraînement conjoint. Cela permet l'extraction de représentations textuelles riches, utilisées comme incitations dans les étapes de débruitage ultérieures. Des expériences approfondies démontrent que notre approche surpasse systématiquement les méthodes de restauration de pointe, obtenant des gains significatifs en précision de reconnaissance de texte. Consultez notre page de projet : https://cvlab-kaist.github.io/TAIR/
Malgré les avancées rapides des modèles de génération vidéo, la création de vidéos narratives cohérentes couvrant plusieurs scènes et personnages reste un défi. Les méthodes actuelles convertissent souvent de manière rigide des images clés pré-générées en clips de durée fixe, ce qui entraîne des récits décousus et des problèmes de rythme. De plus, l'instabilité inhérente des modèles de génération vidéo signifie qu'un seul clip de faible qualité peut considérablement dégrader la cohérence logique et la continuité visuelle de l'animation entière. Pour surmonter ces obstacles, nous présentons AniMaker, un cadre multi-agents permettant une génération efficace de clips multi-candidats et une sélection de clips consciente de la narration, créant ainsi des animations globalement cohérentes et alignées avec l'histoire uniquement à partir d'une entrée texte. Le cadre est structuré autour d'agents spécialisés, incluant l'Agent Réalisateur pour la génération de storyboards, l'Agent Photographie pour la génération de clips vidéo, l'Agent Évaluateur pour l'évaluation, et l'Agent Post-Production pour le montage et le doublage. Au cœur de l'approche d'AniMaker se trouvent deux composants techniques clés : MCTS-Gen dans l'Agent Photographie, une stratégie inspirée de la recherche arborescente Monte Carlo (MCTS) qui navigue intelligemment dans l'espace des candidats pour générer des clips à fort potentiel tout en optimisant l'utilisation des ressources ; et AniEval dans l'Agent Évaluateur, le premier cadre spécifiquement conçu pour l'évaluation d'animations multi-plans, qui évalue des aspects critiques tels que la cohérence au niveau de l'histoire, l'achèvement des actions, et les caractéristiques spécifiques à l'animation en considérant chaque clip dans le contexte de ses clips précédents et suivants. Les expériences démontrent qu'AniMaker atteint une qualité supérieure mesurée par des métriques populaires incluant VBench et notre cadre AniEval proposé, tout en améliorant significativement l'efficacité de la génération multi-candidats, rapprochant ainsi l'animation narrative générée par IA des standards de production.
Nous présentons Magistral, le premier modèle de raisonnement de Mistral ainsi que notre propre pipeline d'apprentissage par renforcement (RL) scalable. Plutôt que de s'appuyer sur des implémentations existantes et des traces de RL distillées à partir de modèles antérieurs, nous adoptons une approche de fond en comble, en nous reposant uniquement sur nos propres modèles et infrastructures. Nous démontrons notamment une architecture qui nous a permis d'explorer les limites de l'entraînement pur par RL des LLMs, proposons une méthode simple pour forcer le langage de raisonnement du modèle, et montrons que le RL sur des données textuelles seul préserve la plupart des capacités du point de contrôle initial. Nous constatons que le RL sur du texte maintient ou améliore la compréhension multimodale, le suivi d'instructions et l'appel de fonctions. Nous présentons Magistral Medium, entraîné pour le raisonnement sur la base de Mistral Medium 3 uniquement avec du RL, et nous mettons en open-source Magistral Small (Apache 2.0), qui inclut en outre des données de démarrage à froid provenant de Magistral Medium.
Nous présentons VRBench, le premier benchmark de vidéos narratives longues conçu pour évaluer les capacités de raisonnement multi-étapes des grands modèles, en répondant aux limites des évaluations existantes qui négligent le raisonnement temporel et la validité procédurale. Il comprend 1 010 vidéos longues (d’une durée moyenne de 1,6 heure), ainsi que 9 468 paires de questions-réponses multi-étapes annotées manuellement et 30 292 étapes de raisonnement avec des horodatages. Ces vidéos sont sélectionnées via un processus de filtrage en plusieurs étapes, incluant une revue inter-évaluateurs par des experts pour privilégier la cohérence narrative. Nous développons un cadre collaboratif humain-IA qui génère des chaînes de raisonnement cohérentes, chacune nécessitant plusieurs étapes temporellement ancrées, couvrant sept types (par exemple, attribution d’événements, inférence implicite). VRBench conçoit un pipeline d’évaluation multi-phase qui évalue les modèles à la fois au niveau des résultats et du processus. Outre les QCM pour les résultats finaux, nous proposons une métrique de notation guidée par LLM au niveau des progrès pour évaluer la qualité de la chaîne de raisonnement sous plusieurs dimensions de manière exhaustive. À travers des évaluations approfondies de 12 LLM et 16 VLM sur VRBench, nous menons une analyse approfondie et fournissons des insights précieux qui font progresser le domaine du raisonnement multi-étapes.
Les tokens audio discrets sont des représentations compactes visant à préserver la qualité perceptuelle, le contenu phonétique et les caractéristiques du locuteur, tout en permettant un stockage et une inférence efficaces, ainsi que des performances compétitives dans diverses tâches en aval. Ils offrent une alternative pratique aux caractéristiques continues, facilitant l'intégration de la parole et de l'audio dans les modèles de langage de grande envergure (LLMs). Alors que l'intérêt pour le traitement audio basé sur les tokens grandit, diverses méthodes de tokenisation ont émergé, et plusieurs études ont passé en revue les derniers progrès dans ce domaine. Cependant, les études existantes se concentrent souvent sur des domaines ou des tâches spécifiques et manquent d'une comparaison unifiée à travers divers benchmarks. Cet article présente une revue systématique et un benchmark des tokeniseurs audio discrets, couvrant trois domaines : la parole, la musique et l'audio général. Nous proposons une taxonomie des approches de tokenisation basée sur l'encodeur-décodeur, les techniques de quantification, le paradigme d'entraînement, la capacité de streaming et les domaines d'application. Nous évaluons les tokeniseurs sur plusieurs benchmarks pour la reconstruction, les performances en aval et la modélisation du langage acoustique, et analysons les compromis à travers des études d'ablation contrôlées. Nos résultats mettent en lumière les principales limitations, les considérations pratiques et les défis ouverts, offrant des perspectives et des orientations pour les recherches futures dans ce domaine en évolution rapide. Pour plus d'informations, y compris nos principaux résultats et la base de données des tokeniseurs, veuillez consulter notre site web : https://poonehmousavi.github.io/dates-website/.
Nous présentons~Domain2Vec, une approche novatrice qui décompose tout ensemble de données en une combinaison linéaire de plusieurs méta-domaines, un nouveau concept conçu pour capturer les caractéristiques sous-jacentes clés des ensembles de données. Domain2Vec maintient un vocabulaire de méta-domaines et utilise un classifieur pour décomposer tout ensemble de données donné en un vecteur de domaine correspondant à une distribution sur ce vocabulaire. Ces vecteurs de domaine permettent l'identification du mélange de données optimal pour le pré-entraînement de modèles de langage (LM) de manière sans entraînement sous l'\textbf{Hypothèse d'Alignement des Distributions} (DA^{2}), qui suggère que lorsque les distributions de données de l'ensemble d'entraînement et de l'ensemble de validation sont mieux alignées, une perte de validation plus faible est obtenue. De plus, Domain2Vec peut être intégré de manière transparente dans les travaux précédents pour modéliser la relation entre les vecteurs de domaine et la performance des LM, améliorant ainsi considérablement l'efficacité et l'évolutivité des méthodes antérieures. Des expériences approfondies démontrent que Domain2Vec aide à trouver le mélange de données qui améliore la performance des tâches en aval avec un surcoût computationnel minimal. Plus précisément, Domain2Vec atteint la même perte de validation sur Pile-CC en utilisant seulement 51,5% du calcul requis lors de l'entraînement sur le mélange original de l'ensemble de données The Pile. Avec un budget de calcul équivalent, Domain2Vec améliore la performance en aval en moyenne de 2,83%.
Récemment, les agents basés sur des modèles de langage multimodaux de grande échelle (MLLMs) ont réalisé des progrès remarquables dans divers domaines. Cependant, la construction d'un agent généraliste doté de capacités telles que la perception, la planification, l'action, l'ancrage et la réflexion dans des environnements ouverts comme Minecraft reste un défi : données spécifiques au domaine insuffisantes, interférence entre tâches hétérogènes et diversité visuelle dans les environnements ouverts. Dans cet article, nous abordons ces défis à travers trois contributions clés. 1) Nous proposons un pipeline de génération de données enrichi par des connaissances pour fournir des données d'entraînement évolutives et de haute qualité pour le développement d'agents. 2) Pour atténuer l'interférence entre tâches hétérogènes, nous introduisons une architecture Mixture-of-Experts (MoE) avec routage au niveau des tâches. 3) Nous développons une approche d'apprentissage par renforcement augmenté par un raisonnement multimodal pour améliorer la capacité de raisonnement de l'agent face à la diversité visuelle dans Minecraft. Sur la base de ces innovations, nous présentons Optimus-3, un agent généraliste pour Minecraft. Les résultats expérimentaux approfondis démontrent qu'Optimus-3 surpasse à la fois les modèles de langage multimodaux généralistes et les agents existants de pointe dans une large gamme de tâches dans l'environnement Minecraft. Page du projet : https://cybertronagent.github.io/Optimus-3.github.io/
La génération d'affiches esthétiques est plus complexe que la création d'images de conception simples : elle nécessite non seulement un rendu de texte précis, mais aussi une intégration fluide de contenu artistique abstrait, de mises en page percutantes et d'une harmonie stylistique globale. Pour répondre à ce défi, nous proposons PosterCraft, un cadre unifié qui abandonne les pipelines modulaires antérieurs et les mises en page rigides prédéfinies, permettant au modèle d'explorer librement des compositions cohérentes et visuellement captivantes. PosterCraft utilise un workflow en cascade soigneusement conçu pour optimiser la génération d'affiches à haute valeur esthétique : (i) optimisation à grande échelle du rendu de texte sur notre nouveau jeu de données Text-Render-2M ; (ii) fine-tuning supervisé prenant en compte les régions sur HQ-Poster100K ; (iii) apprentissage par renforcement esthétique-textuel via une optimisation des préférences best-of-n ; et (iv) raffinement conjoint par feedback vision-langage. Chaque étape est soutenue par un pipeline de construction de données entièrement automatisé adapté à ses besoins spécifiques, permettant un entraînement robuste sans modifications architecturales complexes. Évalué sur plusieurs expériences, PosterCraft surpasse significativement les bases de référence open-source en termes de précision de rendu, de cohérence de mise en page et d'attrait visuel global, approchant la qualité des systèmes commerciaux de pointe (SOTA). Notre code, modèles et jeux de données sont disponibles sur la page du projet : https://ephemeral182.github.io/PosterCraft.
Les méthodes récentes de guidage dans les modèles de diffusion orientent l'échantillonnage inverse en perturbant le modèle pour construire un modèle faible implicite et guider la génération à l'écart de celui-ci. Parmi ces approches, la perturbation de l'attention a démontré de solides performances empiriques dans des scénarios inconditionnels où le guidage sans classifieur n'est pas applicable. Cependant, les méthodes existantes de perturbation de l'attention manquent d'approches systématiques pour déterminer où les perturbations doivent être appliquées, en particulier dans les architectures de Transformers de Diffusion (DiT) où les calculs pertinents pour la qualité sont répartis sur plusieurs couches. Dans cet article, nous étudions la granularité des perturbations de l'attention, allant du niveau des couches jusqu'aux têtes d'attention individuelles, et découvrons que des têtes spécifiques gouvernent des concepts visuels distincts tels que la structure, le style et la qualité de la texture. Sur la base de cette observation, nous proposons "HeadHunter", un cadre systématique pour sélectionner itérativement les têtes d'attention qui s'alignent sur des objectifs centrés sur l'utilisateur, permettant un contrôle fin de la qualité de génération et des attributs visuels. De plus, nous introduisons SoftPAG, qui interpole linéairement la carte d'attention de chaque tête sélectionnée vers une matrice identité, offrant un réglage continu de la force de perturbation et supprimant les artefacts. Notre approche atténue non seulement les problèmes de sur-lissage des perturbations au niveau des couches existantes, mais permet également une manipulation ciblée de styles visuels spécifiques grâce à une sélection compositionnelle des têtes. Nous validons notre méthode sur des modèles modernes de génération d'images à partir de texte basés sur DiT, notamment Stable Diffusion 3 et FLUX.1, démontrant une performance supérieure à la fois dans l'amélioration générale de la qualité et dans le guidage spécifique au style. Notre travail fournit la première analyse au niveau des têtes de la perturbation de l'attention dans les modèles de diffusion, révélant une spécialisation interprétable au sein des couches d'attention et permettant la conception pratique de stratégies de perturbation efficaces.
Nous proposons Ming-Omni, un modèle multimodal unifié capable de traiter des images, du texte, de l’audio et de la vidéo, tout en démontrant une forte compétence dans la génération de parole et d’images. Ming-Omni utilise des encodeurs dédiés pour extraire des tokens à partir de différentes modalités, qui sont ensuite traités par Ling, une architecture MoE équipée de routeurs spécifiques aux modalités nouvellement proposés. Cette conception permet à un seul modèle de traiter et de fusionner efficacement des entrées multimodales dans un cadre unifié, facilitant ainsi diverses tâches sans nécessiter de modèles séparés, de réglage spécifique à la tâche ou de restructuration. De manière significative, Ming-Omni va au-delà des modèles multimodaux conventionnels en prenant en charge la génération d’audio et d’images. Cela est réalisé grâce à l’intégration d’un décodeur audio avancé pour une parole naturelle et de Ming-Lite-Uni pour la génération d’images de haute qualité, ce qui permet également au modèle de participer à des conversations contextuelles, de convertir du texte en parole et de réaliser des modifications d’images polyvalentes. Nos résultats expérimentaux montrent que Ming-Omni offre une solution puissante pour la perception et la génération unifiées à travers toutes les modalités. Notamment, Ming-Omni est le premier modèle open-source à notre connaissance à égaler GPT-4o en termes de support des modalités, et nous publions l’ensemble du code et des poids du modèle pour encourager la recherche et le développement au sein de la communauté.
Comment pouvons-nous susciter efficacement un raisonnement solide dans les modèles de langage en exploitant leurs représentations sous-jacentes ? Nous répondons à cette question avec Resa, une famille de modèles de raisonnement de 1,5 milliard de paramètres entraînés via une nouvelle procédure efficace de réglage par autoencodeur parcimonieux (SAE-Tuning). Cette méthode commence par entraîner un SAE pour capturer les capacités de raisonnement d'un modèle source, puis utilise le SAE entraîné pour guider un processus standard de fine-tuning supervisé afin de susciter ces capacités dans un modèle cible, le tout en utilisant des données vérifiées de questions-réponses sans aucune trace de raisonnement. Notamment, lorsqu'elle est appliquée à certains modèles de base avant un post-entraînement par apprentissage par renforcement (RL), la méthode SAE-Tuning conserve plus de 97 % des performances de raisonnement de son homologue entraîné par RL tout en réduisant les coûts d'entraînement de plus de 2000 fois, à environ 1 euro, et le temps d'entraînement de plus de 450 fois, à environ 20 minutes. De plus, lorsqu'elle est appliquée à des modèles légèrement entraînés par RL (par exemple, en moins d'une heure sur 2 GPU), elle permet d'atteindre des performances de raisonnement telles que 43,33 % de Pass@1 sur AIME24 et 90 % de Pass@1 sur AMC23 pour un coût supplémentaire d'environ 1 euro. Étonnamment, les capacités de raisonnement extraites via les SAE sont potentiellement à la fois généralisables et modulaires. La généralité signifie que les capacités extraites d'un ensemble de données améliorent encore les performances sur un corpus plus large et chevauchant. La modularité signifie que les capacités extraites de Qwen ou Qwen-Math peuvent être attachées au modèle R1-Distill au moment du test, sans aucun réentraînement, et produire des gains comparables. Des ablations approfondies valident ces résultats, et tous les artefacts sont entièrement open-source.
Les agents basés sur des modèles de langage de grande taille (LLM) ont démontré un potentiel considérable pour résoudre des problèmes de science des données dans le monde réel. Les agents de science des données pilotés par des LLM promettent d'automatiser l'intégralité du pipeline d'apprentissage automatique, mais leur efficacité pratique reste limitée. Les frameworks existants reposent sur des workflows rigides et prédéfinis ainsi que des stratégies de codage inflexibles ; par conséquent, ils excellent uniquement sur des problèmes relativement simples et classiques, et ne parviennent pas à capturer l'expertise empirique que les praticiens humains apportent aux tâches complexes et innovantes. Dans ce travail, nous présentons AutoMind, un framework d'agent LLM adaptatif et informé qui surmonte ces lacunes grâce à trois avancées clés : (1) une base de connaissances expertes organisée qui ancre l'agent dans le savoir des experts du domaine, (2) un algorithme de recherche arborescente agentique et informé qui explore stratégiquement les solutions possibles, et (3) une stratégie de codage auto-adaptative qui ajuste dynamiquement la génération de code à la complexité de la tâche. Les évaluations sur deux benchmarks automatisés de science des données montrent qu'AutoMind offre des performances supérieures par rapport aux approches de pointe existantes. Des analyses supplémentaires confirment une efficacité, une efficience et une qualité de solution qualitatives favorables, positionnant AutoMind comme une étape robuste et efficace vers une science des données entièrement automatisée.
Les récentes avancées dans les modèles de langage de grande taille (LLMs) et leurs homologues multimodaux ont suscité un intérêt considérable pour le développement d'agents web — des systèmes d'intelligence artificielle capables de naviguer de manière autonome et d'accomplir des tâches dans des environnements web. Bien qu'ils promettent d'automatiser des interactions web complexes, les approches actuelles rencontrent des défis majeurs en raison de l'inadéquation fondamentale entre les interfaces conçues pour les humains et les capacités des LLMs. Les méthodes actuelles peinent à gérer la complexité inhérente des entrées web, qu'il s'agisse de traiter des arbres DOM massifs, de s'appuyer sur des captures d'écran enrichies d'informations supplémentaires, ou de contourner complètement l'interface utilisateur via des interactions API. Ce document de position plaide pour un changement de paradigme dans la recherche sur les agents web : plutôt que de forcer les agents web à s'adapter à des interfaces conçues pour les humains, nous devrions développer un nouveau paradigme d'interaction spécifiquement optimisé pour les capacités agentiques. À cette fin, nous introduisons le concept d'Interface Web Agentique (AWI), une interface spécialement conçue pour permettre aux agents de naviguer sur un site web. Nous établissons six principes directeurs pour la conception des AWI, mettant l'accent sur la sécurité, l'efficacité et la standardisation, afin de prendre en compte les intérêts de toutes les parties prenantes principales. Ce recadrage vise à surmonter les limitations fondamentales des interfaces existantes, ouvrant la voie à une conception d'agents web plus efficace, fiable et transparente, qui sera un effort collaboratif impliquant la communauté élargie de l'apprentissage automatique.
La compréhension de vidéos longues (Long Video Understanding, LVU) représente un défi majeur pour les modèles de langage multi-modaux de grande envergure (Multi-modal Large Language Models, MLLMs) en raison de la complexité inhérente à la tâche et des contraintes liées à la fenêtre contextuelle. Il est largement admis que la résolution des tâches LVU nécessite des MLLMs de base dotés de fenêtres contextuelles étendues, de solides capacités de perception visuelle et d'une expertise approfondie dans le domaine. Dans ce travail, nous remettons en question cette croyance commune en introduisant VideoDeepResearch, un nouveau cadre agentique pour la compréhension de vidéos longues. Notre approche repose uniquement sur un modèle de raisonnement de grande envergure (Large Reasoning Model, LRM) textuel, combiné à une boîte à outils multi-modulaire comprenant des récupérateurs multi-modaux et des perceveurs visuels, tous facilement disponibles en pratique. Pour chaque tâche LVU, le système élabore une stratégie de résolution de problèmes par le raisonnement, tout en accédant et en utilisant de manière sélective le contenu vidéo essentiel via l'utilisation d'outils. Nous menons des expériences approfondies sur des benchmarks LVU populaires, notamment MLVU, Video-MME et LVBench. Nos résultats démontrent que VideoDeepResearch réalise des améliorations substantielles par rapport aux MLLMs de référence existants, surpassant l'état de l'art précédent de 9,6 %, 6,6 % et 3,9 % sur MLVU (test), LVBench et LongVideoBench, respectivement. Ces résultats mettent en lumière le potentiel des systèmes agentiques pour surmonter les principaux défis des problèmes LVU.
La conception graphique joue un rôle crucial dans les contextes commerciaux et personnels, mais la création de compositions graphiques de haute qualité, modifiables et esthétiquement plaisantes reste une tâche chronophage et exigeante en compétences, en particulier pour les débutants. Les outils d'IA actuels automatisent certaines parties du processus, mais peinent à intégrer avec précision les éléments fournis par l'utilisateur, à maintenir la modifiabilité et à atteindre un attrait visuel professionnel. Les systèmes commerciaux, comme Canva Magic Design, s'appuient sur de vastes bibliothèques de modèles, qui sont peu pratiques à reproduire. Dans cet article, nous présentons CreatiPoster, un cadre qui génère des compositions multicouches modifiables à partir d'instructions en langage naturel ou d'éléments optionnels. Un modèle de protocole, un grand modèle multimodal RGBA, produit d'abord une spécification JSON détaillant chaque couche (texte ou élément) avec un positionnement précis, une hiérarchie, un contenu et un style, ainsi qu'une invite de fond concise. Un modèle de fond conditionnel synthétise ensuite un arrière-plan cohérent en fonction de ces couches de premier plan rendues. Nous construisons un benchmark avec des métriques automatisées pour la génération de conception graphique et montrons que CreatiPoster surpasse les approches open-source de pointe et les systèmes commerciaux propriétaires. Pour catalyser la recherche future, nous publions un corpus libre de droits de 100 000 conceptions multicouches. CreatiPoster prend en charge diverses applications telles que l'édition de canevas, la superposition de texte, le redimensionnement réactif, l'adaptation multilingue et les affiches animées, faisant progresser la démocratisation de la conception graphique assistée par l'IA. Page du projet : https://github.com/graphic-design-ai/creatiposter
Les grands modèles de langage (LLMs) sont de plus en plus utilisés pour les tâches de détection automatisée de contenus nuisibles, aidant les modérateurs à identifier les violations des politiques et à améliorer l'efficacité et la précision globales de la modération des contenus. Cependant, les ressources existantes pour la détection de contenus nuisibles se concentrent principalement sur l'anglais, les ensembles de données en chinois restant rares et souvent limités en portée. Nous présentons un benchmark complet et professionnellement annoté pour la détection de contenus nuisibles en chinois, couvrant six catégories représentatives et construit entièrement à partir de données réelles. Notre processus d'annotation produit en outre une base de règles de connaissances qui fournit des connaissances expertes explicites pour aider les LLMs dans la détection de contenus nuisibles en chinois. De plus, nous proposons une ligne de base enrichie par les connaissances qui intègre à la fois les règles de connaissances annotées par des humains et les connaissances implicites des grands modèles de langage, permettant aux modèles plus petits d'atteindre des performances comparables à celles des LLMs de pointe. Le code et les données sont disponibles à l'adresse suivante : https://github.com/zjunlp/ChineseHarm-bench.
Les récents progrès dans les modèles de fondation multimodaux unifiant la compréhension et la génération d'images ont ouvert des perspectives passionnantes pour aborder un large éventail de tâches vision-langage au sein d'un même cadre. Malgré ces avancées, les modèles unifiés existants nécessitent généralement un pré-entraînement intensif et peinent à atteindre le même niveau de performance que les modèles dédiés à chaque tâche. De plus, bon nombre de ces modèles souffrent de vitesses de génération d'images lentes, limitant leur déploiement pratique dans des contextes en temps réel ou à ressources limitées. Dans ce travail, nous proposons Layerwise Timestep-Expert Flow-based Transformer (LaTtE-Flow), une architecture novatrice et efficace qui unifie la compréhension et la génération d'images au sein d'un seul modèle multimodal. LaTtE-Flow s'appuie sur des modèles vision-langage (VLMs) pré-entraînés puissants pour hériter de solides capacités de compréhension multimodale, et les étend avec une architecture innovante basée sur des experts temporels par couches pour une génération d'images efficace. LaTtE-Flow répartit le processus de correspondance de flux entre des groupes spécialisés de couches Transformer, chacun étant responsable d'un sous-ensemble distinct d'étapes temporelles. Cette conception améliore significativement l'efficacité de l'échantillonnage en activant seulement un petit sous-ensemble de couches à chaque étape d'échantillonnage. Pour renforcer encore les performances, nous proposons un mécanisme d'attention résiduelle conditionnée par l'étape temporelle pour une réutilisation efficace de l'information entre les couches. Les expériences démontrent que LaTtE-Flow atteint des performances solides sur les tâches de compréhension multimodale, tout en obtenant une qualité de génération d'images compétitive avec une vitesse d'inférence environ 6 fois plus rapide que les modèles multimodaux unifiés récents.
Shojaee et al. (2025) rapportent que les modèles de raisonnement à grande échelle (Large Reasoning Models, LRMs) présentent un "effondrement de la précision" sur des énigmes de planification au-delà de certains seuils de complexité. Nous démontrons que leurs résultats reflètent principalement des limitations dans la conception expérimentale plutôt que des échecs fondamentaux de raisonnement. Notre analyse révèle trois problèmes critiques : (1) Les expériences sur la Tour de Hanoï dépassent systématiquement les limites de tokens en sortie des modèles aux points d'échec rapportés, les modèles reconnaissant explicitement ces contraintes dans leurs sorties ; (2) Le cadre d'évaluation automatisé des auteurs ne parvient pas à distinguer les échecs de raisonnement des contraintes pratiques, conduisant à une mauvaise classification des capacités des modèles ; (3) Plus préoccupant, leurs benchmarks de traversée de rivière incluent des instances mathématiquement impossibles pour N > 5 en raison d'une capacité insuffisante du bateau, mais les modèles sont notés comme ayant échoué pour ne pas avoir résolu ces problèmes insolubles. Lorsque nous contrôlons ces artefacts expérimentaux, en demandant des fonctions génératrices plutôt que des listes exhaustives de mouvements, des expériences préliminaires sur plusieurs modèles indiquent une grande précision sur les instances de la Tour de Hanoï précédemment rapportées comme des échecs complets. Ces résultats soulignent l'importance d'une conception expérimentale rigoureuse lors de l'évaluation des capacités de raisonnement de l'IA.
Alors que le réglage fin (FT) devient de plus en plus impraticable à grande échelle, le sondage émerge comme le protocole d'évaluation privilégié pour l'apprentissage auto-supervisé (SSL). Cependant, le sondage linéaire standard (LP) ne parvient pas à refléter adéquatement le potentiel des modèles entraînés avec la modélisation d'images masquées (MIM), en raison de la nature distribuée des tokens de patch. Cela motive la nécessité d'un sondage attentif, une alternative qui utilise l'attention pour agréger de manière sélective les caractéristiques au niveau des patchs. Malgré son adoption croissante, le sondage attentif reste peu exploré, les méthodes existantes souffrant d'une paramétrisation excessive et d'une faible efficacité computationnelle. Dans ce travail, nous revisitons le sondage attentif à travers le prisme du compromis précision-efficacité. Nous menons une étude systématique des méthodes existantes, en analysant leurs mécanismes et en évaluant leurs performances. Nous introduisons le sondage efficace (EP), un mécanisme d'attention croisée multi-requêtes qui élimine les projections redondantes, réduit le nombre de paramètres entraînables et permet une accélération jusqu'à 10 fois par rapport à l'attention multi-têtes conventionnelle. Malgré sa simplicité, EP surpasse LP et les approches de sondage attentif précédentes sur sept benchmarks, se généralise bien au-delà de MIM à divers paradigmes de pré-entraînement, produit des cartes d'attention interprétables et obtient des gains significatifs dans des contextes de faible échantillonnage et d'analyse par couches. Le code est disponible à l'adresse https://github.com/billpsomas/efficient-probing.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu une technique clé pour améliorer les grands modèles de langage (LLM), où l'ingénierie de vérification joue un rôle central. Cependant, les meilleures pratiques pour l'apprentissage par renforcement dans le suivi d'instructions restent peu explorées. Dans ce travail, nous examinons le défi de la vérification dans l'apprentissage par renforcement pour le suivi d'instructions et proposons VerIF, une méthode de vérification qui combine la vérification de code basée sur des règles avec la vérification basée sur un LLM issu d'un grand modèle de raisonnement (par exemple, QwQ-32B). Pour soutenir cette approche, nous construisons un ensemble de données de haute qualité pour le suivi d'instructions, VerInstruct, contenant environ 22 000 instances accompagnées de signaux de vérification. Nous appliquons l'entraînement par renforcement avec VerIF à deux modèles, obtenant des améliorations significatives sur plusieurs benchmarks représentatifs du suivi d'instructions. Les modèles entraînés atteignent des performances de pointe parmi les modèles de taille comparable et généralisent bien à des contraintes non vues auparavant. Nous observons en outre que leurs capacités générales restent intactes, suggérant que l'apprentissage par renforcement avec VerIF peut être intégré aux recettes existantes d'apprentissage par renforcement pour améliorer les performances globales des modèles. Nous avons publié nos ensembles de données, codes et modèles pour faciliter les recherches futures à l'adresse https://github.com/THU-KEG/VerIF.
Les récentes avancées dans les modèles de langage de grande taille (LLMs) et les systèmes d'intelligence artificielle (IA) ont entraîné un changement de paradigme dans la conception et l'optimisation des flux de travail complexes en IA. En intégrant plusieurs composants, les systèmes d'IA composés sont devenus de plus en plus aptes à accomplir des tâches sophistiquées. Cependant, à mesure que ces systèmes gagnent en complexité, de nouveaux défis émergent pour optimiser non seulement les composants individuels, mais aussi leurs interactions. Bien que les méthodes d'optimisation traditionnelles telles que le réglage fin supervisé (SFT) et l'apprentissage par renforcement (RL) restent fondamentales, l'émergence des retours en langage naturel introduit des approches prometteuses, en particulier pour l'optimisation des systèmes non différentiables. Cet article propose une revue systématique des progrès récents dans l'optimisation des systèmes d'IA composés, englobant à la fois les techniques numériques et basées sur le langage. Nous formalisons la notion d'optimisation des systèmes d'IA composés, classifions les méthodes existantes selon plusieurs dimensions clés, et mettons en lumière les défis de recherche ouverts ainsi que les orientations futures dans ce domaine en évolution rapide. Une liste des articles examinés est disponible publiquement à l'adresse suivante : https://github.com/MiuLab/AISysOpt-Survey.
Les grands modèles de langage ont transformé le traitement du langage naturel, mais l'affinage supervisé (SFT) reste coûteux en calcul. Cet article démontre formellement que les capacités acquises par le SFT peuvent être approximées par un modèle de base de type transformer en utilisant des techniques d'inférence, notamment l'apprentissage en contexte (ICL), sans modifier les paramètres du modèle, sous des hypothèses idéalisées incluant des ressources de calcul illimitées et un accès au jeu de données d'affinage. Nous étendons ces résultats à des scénarios pratiques avec des longueurs de contexte finies et un accès partiel au jeu de données. Pour les tâches de génération de texte avec une longueur de sortie fixe l, des jeux de données de taille Oleft( m V{varepsilon^2} log m{delta} right) ou, avec un contexte borné, Oleft( l log V{varepsilon^2} log 1{delta} right) suffisent à approximer le comportement affiné sur m contextes avec une erreur varepsilon, où V est la taille du vocabulaire et delta est la probabilité d'échec. Pour la classification linéaire, des jeux de données de taille Oleft( d{varepsilon} right) ou, avec un contexte fixe, Oleft( 1{varepsilon^2} log 1{delta} right) sont suffisants, où d est la dimension d'entrée. Ancrés dans la complétude de Turing des transformers, ces résultats fournissent une base théorique pour le déploiement efficace en ressources des grands modèles de langage, avec des techniques pratiques comme la génération augmentée par récupération reliant la théorie aux applications réelles.
Dans le domaine du commerce électronique et du marketing digital, la génération de vidéos de démonstration humain-produit de haute fidélité est essentielle pour une présentation efficace des produits. Cependant, la plupart des frameworks existants échouent soit à préserver les identités des humains et des produits, soit à comprendre les relations spatiales entre l'humain et le produit, ce qui conduit à des représentations irréalistes et à des interactions peu naturelles. Pour relever ces défis, nous proposons un framework basé sur un Transformer à Diffusion (DiT). Notre méthode préserve simultanément les identités humaines et les détails spécifiques aux produits, tels que les logos et les textures, en injectant des informations de référence appariées humain-produit et en utilisant un mécanisme supplémentaire d'attention croisée masquée. Nous employons un modèle de maillage corporel 3D et des boîtes englobantes de produits pour fournir un guidage précis des mouvements, permettant un alignement intuitif des gestes de la main avec le placement des produits. De plus, un encodage de texte structuré est utilisé pour intégrer des sémantiques au niveau des catégories, améliorant la cohérence 3D lors de petits changements de rotation entre les images. Entraîné sur un ensemble de données hybride avec des stratégies d'augmentation de données étendues, notre approche surpasse les techniques de pointe en matière de préservation de l'intégrité des identités humaines et des produits, ainsi que de génération de mouvements de démonstration réalistes. Page du projet : https://submit2025-dream.github.io/DreamActor-H1/.
La diversité d'échelle des données de nuages de points pose des défis majeurs dans le développement de techniques unifiées d'apprentissage de représentation pour la vision 3D. Actuellement, il existe peu de modèles 3D unifiés, et aucune méthode de pré-entraînement existante n'est également efficace pour les nuages de points à l'échelle des objets et des scènes. Dans cet article, nous présentons UniPre3D, la première méthode de pré-entraînement unifiée qui peut être appliquée de manière transparente à des nuages de points de toute échelle et à des modèles 3D de toute architecture. Notre approche prédit des primitives gaussiennes comme tâche de pré-entraînement et utilise un lissage gaussien différentiable pour rendre des images, permettant une supervision précise au niveau des pixels et une optimisation de bout en bout. Pour réguler davantage la complexité de la tâche de pré-entraînement et orienter l'attention du modèle vers les structures géométriques, nous intégrons des caractéristiques 2D issues de modèles d'images pré-entraînés afin d'incorporer des connaissances bien établies sur les textures. Nous validons l'efficacité universelle de notre méthode proposée à travers des expériences approfondies sur une variété de tâches à l'échelle des objets et des scènes, en utilisant divers modèles de nuages de points comme architectures de base. Le code est disponible à l'adresse suivante : https://github.com/wangzy22/UniPre3D.
Alors que les grands modèles de langage (LLM) ont progressé vers des communications plus humaines et que les interactions homme-IA sont devenues omniprésentes, l'art de formuler des prompts s'est imposé comme un élément décisif. Cependant, il existe un consensus conceptuel limité sur ce qui quantifie précisément les prompts en langage naturel. Nous tentons de répondre à cette question en réalisant une méta-analyse examinant plus de 150 articles liés aux prompts issus de conférences majeures en NLP et IA de 2022 à 2025, ainsi que des blogs. Nous proposons un cadre d'évaluation de la qualité des prompts centré sur les propriétés et l'humain, englobant 21 propriétés réparties en six dimensions. Nous examinons ensuite comment les études existantes évaluent leur impact sur les LLM, révélant un soutien déséquilibré à travers les modèles et les tâches, ainsi que des lacunes de recherche substantielles. De plus, nous analysons les corrélations entre les propriétés dans les prompts de langage naturel de haute qualité, en dérivant des recommandations pour la formulation des prompts. Nous explorons ensuite empiriquement les améliorations multi-propriétés des prompts dans des tâches de raisonnement, observant que les améliorations mono-propriété ont souvent le plus grand impact. Enfin, nous découvrons que l'ajustement par instruction sur des prompts améliorés par propriétés peut aboutir à des modèles de raisonnement plus performants. Nos résultats établissent une base pour l'évaluation et l'optimisation des prompts centrés sur les propriétés, comblant les lacunes dans les communications homme-IA et ouvrant de nouvelles directions de recherche sur les prompts.
Un objectif central de l'interprétabilité mécaniste a été d'identifier les bonnes unités d'analyse dans les grands modèles de langage (LLMs) qui expliquent causalement leurs sorties. Alors que les travaux initiaux se concentraient sur des neurones individuels, des preuves montrant que les neurones encodent souvent plusieurs concepts ont motivé un changement vers l'analyse des directions dans l'espace d'activation. Une question clé est de savoir comment trouver des directions qui capturent des caractéristiques interprétables de manière non supervisée. Les méthodes actuelles reposent sur l'apprentissage de dictionnaires avec des autoencodeurs parcimonieux (SAEs), généralement entraînés sur les activations du flux résiduel pour apprendre des directions à partir de zéro. Cependant, les SAEs rencontrent souvent des difficultés dans les évaluations causales et manquent d'interprétabilité intrinsèque, car leur apprentissage n'est pas explicitement lié aux calculs du modèle. Ici, nous abordons ces limitations en décomposant directement les activations des MLPs avec la factorisation matricielle semi-non négative (SNMF), de sorte que les caractéristiques apprises soient (a) des combinaisons linéaires parcimonieuses de neurones co-activés, et (b) mappées à leurs entrées activatrices, les rendant directement interprétables. Des expériences sur Llama 3.1, Gemma 2 et GPT-2 montrent que les caractéristiques dérivées de la SNMF surpassent les SAEs et une base de référence supervisée forte (différence des moyennes) en matière de pilotage causal, tout en s'alignant sur des concepts interprétables par l'homme. Une analyse plus approfondie révèle que des combinaisons spécifiques de neurones sont réutilisées à travers des caractéristiques sémantiquement liées, exposant une structure hiérarchique dans l'espace d'activation des MLPs. Ensemble, ces résultats positionnent la SNMF comme un outil simple et efficace pour identifier des caractéristiques interprétables et disséquer les représentations de concepts dans les LLMs.
L'entraînement de grands modèles de langage est généralement réalisé via des méthodes d'optimisation sur des clusters contenant des dizaines de milliers d'accélérateurs, communiquant via une interconnexion à haut débit. La mise à l'échelle de ces clusters est coûteuse et peut devenir impraticable, imposant des limites sur la taille des modèles pouvant être entraînés. Plusieurs études récentes ont proposé des méthodes d'entraînement moins intensives en communication, évitant ainsi la nécessité d'un cluster de calcul hautement connecté. Ces méthodes d'entraînement à faible communication, à l'état de l'art, utilisent toujours une étape de synchronisation pour les paramètres du modèle, qui, lorsqu'elle est effectuée sur toutes les répliques du modèle, peut devenir coûteuse sur un réseau à faible bande passante. Dans ce travail, nous proposons une nouvelle méthode d'optimisation, NoLoCo, qui ne synchronise pas explicitement tous les paramètres du modèle pendant l'entraînement et, par conséquent, ne nécessite aucune communication collective. NoLoCo synchronise implicitement les poids du modèle via une nouvelle variante de l'optimiseur de momentum de Nesterov en faisant une moyenne partielle des poids du modèle avec un autre sélectionné aléatoirement. Nous fournissons à la fois une analyse théorique de convergence pour notre optimiseur proposé ainsi que des résultats empiriques issus de l'entraînement de modèles de langage. Nous évaluons NoLoCo sur une large gamme de nombres d'accélérateurs et de tailles de modèles, entre 125 millions et 6,8 milliards de paramètres. Notre méthode nécessite un surcoût de communication significativement moindre que l'entraînement parallèle de données entièrement partitionnées ou même la méthode d'entraînement à faible communication largement utilisée, DiLoCo. L'étape de synchronisation elle-même est estimée être un ordre de grandeur plus rapide que l'all-reduce utilisé dans DiLoCo pour quelques centaines d'accélérateurs s'entraînant sur internet. Nous n'avons également aucune communication globale bloquante qui réduit le temps d'inactivité des accélérateurs. Par rapport à DiLoCo, nous observons également une convergence jusqu'à 4% plus rapide avec une large gamme de tailles de modèles et de nombres d'accélérateurs.
L'adoption croissante de l'intelligence artificielle dans les télécommunications a suscité un intérêt pour la capacité des modèles de langage de grande taille (LLMs) à traiter des tâches spécifiques à un domaine et intensives en calculs mathématiques. Bien que les avancées récentes aient amélioré les performances des LLMs en raisonnement mathématique général, leur efficacité dans des domaines spécialisés, tels que le traitement du signal, l'optimisation des réseaux et l'analyse de performance, reste largement inexplorée. Pour combler cette lacune, nous présentons TeleMath, le premier ensemble de données de référence spécifiquement conçu pour évaluer les performances des LLMs dans la résolution de problèmes mathématiques avec des solutions numériques dans le domaine des télécommunications. Composé de 500 paires question-réponse (QnA), TeleMath couvre un large éventail de sujets dans le domaine des télécommunications. Cet article décrit le pipeline proposé pour la génération des QnA, en partant d'une sélection de problèmes élaborés par des experts en la matière. L'évaluation d'une large gamme de LLMs open-source révèle que les meilleures performances sur TeleMath sont obtenues par des modèles récents explicitement conçus pour le raisonnement mathématique ou logique. En revanche, les modèles généralistes, même ceux dotés d'un grand nombre de paramètres, peinent souvent à relever ces défis. Nous avons rendu public l'ensemble de données et le code d'évaluation pour faciliter la reproductibilité des résultats et soutenir les recherches futures.
La guidance sans classifieur (Classifier-Free Guidance, CFG) est devenue un composant essentiel des modèles de diffusion modernes pour améliorer à la fois la qualité de génération et l'alignement avec les conditions d'entrée. Cependant, la CFG nécessite des procédures d'entraînement spécifiques et est limitée à la génération conditionnelle. Pour surmonter ces limitations, nous proposons la **Guidance par Perturbation de Tokens (Token Perturbation Guidance, TPG)**, une méthode novatrice qui applique des matrices de perturbation directement aux représentations intermédiaires des tokens au sein du réseau de diffusion. La TPG utilise une opération de mélange préservant la norme pour fournir des signaux de guidance efficaces et stables, améliorant ainsi la qualité de génération sans modifications architecturales. Par conséquent, la TPG ne nécessite pas d'entraînement et est indépendante des conditions d'entrée, ce qui la rend directement applicable à la génération conditionnelle et non conditionnelle. Nous analysons également le terme de guidance fourni par la TPG et montrons que son effet sur l'échantillonnage ressemble davantage à celui de la CFG par rapport aux techniques de guidance sans entraînement existantes. Des expériences approfondies sur SDXL et Stable Diffusion 2.1 montrent que la TPG permet d'améliorer l'indice FID (Fréchet Inception Distance) d'un facteur proche de 2 pour la génération non conditionnelle par rapport à la base de référence SDXL, tout en atteignant un alignement proche de la CFG avec les prompts. Ces résultats établissent la TPG comme une méthode de guidance générale, indépendante des conditions, qui apporte les avantages de la CFG à une classe plus large de modèles de diffusion. Le code est disponible à l'adresse suivante : https://github.com/TaatiTeam/Token-Perturbation-Guidance.
Le désapprentissage des modèles de langage de grande taille (LLM) vise à effacer ou supprimer les connaissances indésirables au sein du modèle, offrant ainsi une perspective prometteuse pour contrôler les informations nuisibles ou privées afin d’en prévenir l’utilisation abusive. Cependant, des études récentes mettent en lumière son efficacité limitée dans des scénarios réels, ce qui freine son adoption pratique. Dans cette étude, nous identifions un problème sous-jacent à de nombreux échecs en aval : l’efficacité des méthodes de désapprentissage existantes dépend fortement de la forme des échantillons d’entraînement et échoue fréquemment à généraliser à des expressions alternatives de la même connaissance. Nous caractérisons formellement ce problème comme un biais de dépendance à la forme et étudions systématiquement ses manifestations spécifiques à travers diverses tâches en aval. Pour quantifier sa prévalence et soutenir les recherches futures, nous introduisons ORT, un nouveau benchmark conçu pour évaluer la robustesse des méthodes de désapprentissage face aux variations dans l’expression des connaissances. Les résultats révèlent que le biais de dépendance à la forme est à la fois répandu et sévère parmi les techniques actuelles. Nous soutenons que le désapprentissage des LLM devrait être indépendant de la forme pour répondre aux innombrables formes de tâches en aval rencontrées dans des scénarios critiques de sécurité réels. Dans cette optique, nous introduisons la Redirection de Concept de Rang Un (ROCR), une nouvelle méthode sans entraînement, comme une voie de solution prometteuse. ROCR effectue le désapprentissage en ciblant les invariants des tâches en aval, en particulier les concepts dangereux activés. Elle est capable de modifier les paramètres du modèle en quelques secondes pour rediriger la perception du modèle d’un concept cible spécifique à désapprendre vers un autre concept inoffensif. Des expériences approfondies démontrent que ROCR améliore significativement l’efficacité du désapprentissage par rapport aux méthodes traditionnelles tout en générant des sorties hautement naturelles.
L'évolution rapide des domaines scientifiques introduit des défis dans l'organisation et la récupération de la littérature scientifique. Bien que les taxonomies expertes aient traditionnellement répondu à ce besoin, le processus est long et coûteux. De plus, les méthodes récentes de construction automatique de taxonomies soit (1) s'appuient excessivement sur un corpus spécifique, sacrifiant ainsi la généralisabilité, soit (2) dépendent fortement des connaissances générales des grands modèles de langage (LLMs) contenues dans leurs jeux de données de pré-entraînement, négligeant souvent la nature dynamique des domaines scientifiques en évolution. En outre, ces approches ne tiennent pas compte de la nature multidimensionnelle de la littérature scientifique, où un seul article de recherche peut contribuer à plusieurs dimensions (par exemple, méthodologie, nouvelles tâches, métriques d'évaluation, benchmarks). Pour combler ces lacunes, nous proposons TaxoAdapt, un cadre qui adapte dynamiquement une taxonomie générée par un LLM à un corpus donné à travers plusieurs dimensions. TaxoAdapt effectue une classification hiérarchique itérative, élargissant à la fois la largeur et la profondeur de la taxonomie en fonction de la distribution thématique du corpus. Nous démontrons ses performances de pointe à travers un ensemble diversifié de conférences en informatique au fil des années, mettant en évidence sa capacité à structurer et à capturer l'évolution des domaines scientifiques. En tant que méthode multidimensionnelle, TaxoAdapt génère des taxonomies qui préservent 26,51 % de granularité en plus et sont 50,41 % plus cohérentes que les bases de référence les plus compétitives évaluées par les LLMs.
Les affirmations émises par des individus ou des entités sont souvent nuancées et ne peuvent pas être clairement étiquetées comme entièrement « vraies » ou « fausses » — comme c'est fréquemment le cas pour les affirmations scientifiques et politiques. Cependant, une affirmation (par exemple, « le vaccin A est meilleur que le vaccin B ») peut être décomposée en ses aspects et sous-aspects intégrales (par exemple, efficacité, sécurité, distribution), qui sont individuellement plus faciles à valider. Cela permet une réponse plus complète et structurée, offrant une perspective équilibrée sur un problème donné tout en permettant au lecteur de prioriser des angles spécifiques d'intérêt au sein de l'affirmation (par exemple, la sécurité pour les enfants). Ainsi, nous proposons ClaimSpect, un cadre basé sur la génération augmentée par la récupération, permettant de construire automatiquement une hiérarchie d'aspects généralement considérés lors de l'examen d'une affirmation et de les enrichir avec des perspectives spécifiques au corpus. Cette structure partitionne hiérarchiquement un corpus d'entrée pour récupérer des segments pertinents, qui aident à découvrir de nouveaux sous-aspects. De plus, ces segments permettent de découvrir des perspectives variées concernant un aspect de l'affirmation (par exemple, soutien, neutre ou opposition) et leur prévalence respective (par exemple, « combien d'articles biomédicaux pensent que le vaccin A est plus transportable que le B ? »). Nous appliquons ClaimSpect à une grande variété d'affirmations scientifiques et politiques du monde réel présentées dans notre ensemble de données construit, démontrant sa robustesse et sa précision dans la déconstruction d'une affirmation nuancée et la représentation des perspectives au sein d'un corpus. À travers des études de cas réels et une évaluation humaine, nous validons son efficacité par rapport à plusieurs références.
L'optimisation de l'inférence pour les modèles de langage à grand contexte (LLMs) devient de plus en plus cruciale en raison de la complexité quadratique en calcul et linéaire en mémoire des Transformers. Les méthodes d'approximation existantes, telles que l'élimination du cache clé-valeur (KV), l'attention sparse et la compression de prompt, reposent généralement sur des prédictions approximatives de l'importance des tokens ou des paires KV. Nous proposons un nouveau cadre pour l'inférence approximative des LLMs qui exploite de petits modèles de brouillon pour prédire plus précisément l'importance des tokens et des paires KV. Plus précisément, nous introduisons deux instanciations de notre cadre proposé : (i) SpecKV, qui utilise une sortie de brouillon pour évaluer avec précision l'importance de chaque paire KV afin d'améliorer l'élimination du cache KV, et (ii) SpecPC, qui utilise les activations d'attention du modèle de brouillon pour identifier et éliminer les tokens de prompt non importants. À notre connaissance, il s'agit du premier travail à utiliser des modèles de brouillon pour accélérer l'inférence approximative des LLMs, étendant ainsi leur utilité au-delà du décodage spéculatif traditionnel sans perte. Nous justifions nos méthodes par des analyses théoriques et empiriques, et montrons une forte corrélation entre les modèles d'attention des modèles de brouillon et des modèles cibles. Des expériences approfondies sur des benchmarks à long contexte montrent que nos méthodes atteignent systématiquement une précision supérieure à celle des méthodes de référence existantes, tout en conservant les mêmes améliorations en termes d'utilisation de la mémoire, de latence et de débit. Notre code est disponible à l'adresse https://github.com/furiosa-ai/draft-based-approx-llm.
Les modèles de base ont révolutionné des domaines tels que le traitement du langage naturel et la vision par ordinateur en permettant un apprentissage polyvalent sur des tâches et des ensembles de données variés. Cependant, la construction de modèles analogues pour la mobilité humaine reste un défi en raison de la nature sensible à la vie privée des données de mobilité et des silos de données qui en résultent entre les institutions. Pour combler cette lacune, nous proposons MoveGCL, un cadre évolutif et respectueux de la vie privée pour l'entraînement de modèles de base pour la mobilité via un apprentissage continu génératif. Sans partager de données brutes, MoveGCL permet une évolution décentralisée et progressive du modèle en rejouant des trajectoires synthétiques générées à partir d'un modèle enseignant figé, et renforce la rétention des connaissances grâce à une stratégie de distillation sur mesure qui atténue l'oubli catastrophique. Pour répondre à l'hétérogénéité des schémas de mobilité, MoveGCL intègre un Transformer à mélange d'experts avec un mécanisme de routage d'experts adapté à la mobilité, et utilise une stratégie d'adaptation progressive couche par couche pour stabiliser les mises à jour continues. Les expériences menées sur six ensembles de données urbaines réelles montrent que MoveGCL atteint des performances comparables à l'entraînement conjoint et surpasse significativement les approches d'apprentissage fédéré, tout en offrant une protection robuste de la vie privée. MoveGCL marque une étape cruciale vers le déverrouillage des modèles de base pour la mobilité, offrant un plan pratique pour un développement de modèles ouvert, évolutif et respectueux de la vie privée à l'ère des modèles de base.
La construction d'un monde simulé en 3D physiquement réaliste et à l'échelle précise est cruciale pour l'entraînement et l'évaluation des tâches d'intelligence incarnée. La diversité, le réalisme, l'accessibilité à faible coût et l'abordabilité des ressources de données 3D sont essentiels pour atteindre la généralisation et l'évolutivité dans l'IA incarnée. Cependant, la plupart des tâches actuelles en intelligence incarnée reposent encore largement sur des ressources graphiques 3D traditionnelles, créées et annotées manuellement, qui souffrent de coûts de production élevés et d'un réalisme limité. Ces limitations entravent considérablement l'évolutivité des approches basées sur les données. Nous présentons EmbodiedGen, une plateforme fondamentale pour la génération interactive de mondes 3D. Elle permet la génération évolutive d'actifs 3D de haute qualité, contrôlables et photoréalistes, dotés de propriétés physiques précises et d'une échelle réaliste, au format URDF (Unified Robotics Description Format) à faible coût. Ces actifs peuvent être directement importés dans divers moteurs de simulation physique pour un contrôle physique granulaire, soutenant les tâches en aval d'entraînement et d'évaluation. EmbodiedGen est une boîte à outils complète et facile à utiliser, composée de six modules clés : Image-vers-3D, Texte-vers-3D, Génération de textures, Génération d'objets articulés, Génération de scènes et Génération de dispositions. EmbodiedGen génère des mondes 3D diversifiés et interactifs composés d'actifs 3D génératifs, exploitant l'IA générative pour répondre aux défis de généralisation et d'évaluation liés aux besoins de la recherche en intelligence incarnée. Le code est disponible à l'adresse suivante : https://horizonrobotics.github.io/robot_lab/embodied_gen/index.html.
L'évaluation fidèle des capacités des modèles de langage est cruciale pour dériver des insights exploitables pouvant orienter le développement des modèles. Cependant, les évaluations causales rigoureuses dans ce domaine se heurtent à d'importants défis méthodologiques, notamment des effets de confusion complexes et des coûts de calcul prohibitifs associés à des réentraînements extensifs. Pour relever ces défis, nous proposons un cadre d'apprentissage de représentations causales dans lequel les performances observées sur des benchmarks sont modélisées comme une transformation linéaire de quelques facteurs de capacité latents. Ces facteurs latents sont identifiés comme étant causalement interconnectés après avoir correctement contrôlé le modèle de base en tant que facteur de confusion commun. En appliquant cette approche à un ensemble de données complet englobant plus de 1500 modèles évalués sur six benchmarks du Open LLM Leaderboard, nous identifions une structure causale linéaire à trois nœuds qui explique de manière fiable les variations de performances observées. L'interprétation approfondie de cette structure causale fournit des insights scientifiques substantiels au-delà de simples classements numériques : en particulier, nous révélons une direction causale claire partant des capacités générales de résolution de problèmes, passant par la maîtrise du suivi d'instructions, et culminant dans la capacité de raisonnement mathématique. Nos résultats soulignent le rôle essentiel d'un contrôle minutieux des variations du modèle de base lors de l'évaluation, une étape critique pour découvrir avec précision les relations causales sous-jacentes entre les capacités latentes des modèles.
Les légendes des figures sont essentielles pour aider les lecteurs à comprendre et à retenir le message clé d'une figure. De nombreux modèles ont été développés pour générer ces légendes, facilitant ainsi la rédaction de légendes de meilleure qualité par les auteurs. Cependant, les auteurs doivent presque toujours réviser les légendes génériques produites par l'IA pour les adapter à leur style d'écriture et au style du domaine, soulignant ainsi le besoin de personnalisation. Malgré les avancées en matière de personnalisation des modèles de langage (LaMP), ces technologies se concentrent souvent sur des contextes textuels uniquement et abordent rarement des scénarios où les entrées et les profils sont multimodaux. Cet article présente LaMP-Cap, un ensemble de données pour la génération de légendes de figures personnalisées avec des profils de figures multimodaux. Pour chaque figure cible, LaMP-Cap fournit non seulement les entrées nécessaires, telles que les images des figures, mais aussi jusqu'à trois autres figures provenant du même document—chacune avec son image, sa légende et les paragraphes mentionnant la figure—comme profil pour caractériser le contexte. Les expériences menées avec quatre LLM montrent que l'utilisation des informations de profil aide systématiquement à générer des légendes plus proches de celles rédigées par l'auteur original. Les études d'ablation révèlent que les images du profil sont plus utiles que les paragraphes mentionnant la figure, mettant en évidence l'avantage d'utiliser des profils multimodaux par rapport à ceux basés uniquement sur le texte.
Alors que les techniques d'attaque automatisées progressent rapidement, les CAPTCHA restent un mécanisme de défense essentiel contre les bots malveillants. Cependant, les schémas de CAPTCHA existants englobent une gamme variée de modalités — allant du texte statique déformé et des images obscurcies aux clics interactifs, puzzles glissants et questions basées sur la logique — mais la communauté manque encore d'un benchmark unifié, à grande échelle et multimodal pour évaluer rigoureusement leur robustesse en matière de sécurité. Pour combler cette lacune, nous introduisons MCA-Bench, une suite de benchmarking complète et reproductible qui intègre des types hétérogènes de CAPTCHA dans un protocole d'évaluation unique. En exploitant un modèle de base partagé de vision-langage, nous affinons des agents de craquage spécialisés pour chaque catégorie de CAPTCHA, permettant des évaluations cohérentes et intermodales. Des expériences approfondies révèlent que MCA-Bench cartographie efficacement le spectre de vulnérabilité des conceptions modernes de CAPTCHA dans divers contextes d'attaque, et offre surtout la première analyse quantitative de la manière dont la complexité des défis, la profondeur de l'interaction et la résolvabilité des modèles sont interconnectées. Sur la base de ces résultats, nous proposons trois principes de conception actionnables et identifions les principaux défis ouverts, jetant ainsi les bases pour un renforcement systématique des CAPTCHA, un benchmarking équitable et une collaboration communautaire élargie. Les jeux de données et le code sont disponibles en ligne.
La reconstruction en temps réel de scènes 3D dynamiques à partir de flux vidéo non calibrés est cruciale pour de nombreuses applications pratiques. Cependant, les méthodes existantes peinent à relever simultanément trois défis majeurs : 1) le traitement en temps réel d'entrées non calibrées, 2) la modélisation précise de l'évolution dynamique des scènes, et 3) le maintien de la stabilité à long terme et de l'efficacité computationnelle. Pour répondre à ces enjeux, nous présentons StreamSplat, le premier cadre entièrement feed-forward qui transforme des flux vidéo non calibrés de longueur arbitraire en représentations dynamiques de *3D Gaussian Splatting* (3DGS) de manière en ligne, capable de restituer la dynamique des scènes à partir d'observations temporelles locales. Nous proposons deux innovations techniques clés : un mécanisme d'échantillonnage probabiliste dans l'encodeur statique pour la prédiction des positions 3DGS, et un champ de déformation bidirectionnel dans le décodeur dynamique permettant une modélisation robuste et efficace des dynamiques. Des expérimentations approfondies sur des benchmarks statiques et dynamiques démontrent que StreamSplat surpasse systématiquement les travaux antérieurs en termes de qualité de reconstruction et de modélisation des scènes dynamiques, tout en supportant de manière unique la reconstruction en ligne de flux vidéo de longueur arbitraire. Le code et les modèles sont disponibles à l'adresse https://github.com/nickwzk/StreamSplat.