Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récents progrès dans les grands modèles de raisonnement (LRMs) démontrent que des comportements sophistiqués tels que le raisonnement multi-étapes et l'auto-réflexion peuvent émerger via l'apprentissage par renforcement (RL) avec des récompenses simples basées sur des règles. Cependant, les approches existantes de zéro-RL sont intrinsèquement « on-policy », limitant l'apprentissage aux sorties du modèle lui-même et empêchant l'acquisition de capacités de raisonnement au-delà de ses compétences initiales. Nous présentons LUFFY (Learning to reason Under oFF-policY guidance), un cadre qui enrichit le zéro-RL avec des traces de raisonnement off-policy. LUFFY équilibre dynamiquement l'imitation et l'exploration en combinant des démonstrations off-policy avec des déploiements on-policy pendant l'entraînement. Notamment, nous proposons le façonnage de politique via l'échantillonnage d'importance régularisé pour éviter une imitation superficielle et rigide pendant l'entraînement mixte. De manière remarquable, LUFFY obtient un gain moyen de plus de +7,0 sur six benchmarks mathématiques et un avantage de plus de +6,2 points dans des tâches hors distribution. Il surpasse également de manière significative le fine-tuning supervisé basé sur l'imitation (SFT), en particulier en généralisation. L'analyse montre que LUFFY non seulement imite efficacement, mais explore également au-delà des démonstrations, offrant une voie évolutive pour entraîner des modèles de raisonnement généralisables avec un guidage off-policy.
Nous présentons Eagle 2.5, une famille de modèles vision-langage (VLMs) de pointe pour l'apprentissage multimodal à contexte long. Notre travail aborde les défis liés à la compréhension de vidéos longues et à l'interprétation d'images haute résolution, en introduisant un cadre généraliste pour ces deux tâches. Le cadre d'entraînement proposé intègre l'Échantillonnage Automatique de Dégradation et la Préservation de la Zone d'Image, deux techniques qui préservent l'intégrité contextuelle et les détails visuels. Le cadre inclut également de nombreuses optimisations d'efficacité dans le pipeline pour l'entraînement sur des données à contexte long. Enfin, nous proposons Eagle-Video-110K, un nouveau jeu de données qui intègre à la fois des annotations au niveau de l'histoire et au niveau des clips, facilitant la compréhension des vidéos longues. Eagle 2.5 démontre des améliorations substantielles sur les benchmarks multimodaux à contexte long, offrant une solution robuste aux limitations des VLMs existants. Notamment, notre meilleur modèle Eagle 2.5-8B atteint 72,4% sur Video-MME avec 512 trames en entrée, égalant les résultats des modèles commerciaux de premier plan tels que GPT-4o et des modèles open-source à grande échelle comme Qwen2.5-VL-72B et InternVL2.5-78B.
Cet article propose un méta-agent au niveau des requêtes, nommé FlowReasoner, pour automatiser la conception de systèmes multi-agents au niveau des requêtes, c'est-à-dire un système par requête utilisateur. Notre idée centrale est d'inciter un méta-agent basé sur le raisonnement via des retours d'exécution externes. Concrètement, en distillant DeepSeek R1, nous dotons d'abord FlowReasoner de la capacité de raisonnement de base concernant la génération de systèmes multi-agents. Ensuite, nous l'améliorons davantage via l'apprentissage par renforcement (RL) avec des retours d'exécution externes. Une récompense polyvalente est conçue pour guider l'entraînement RL en termes de performance, complexité et efficacité. De cette manière, FlowReasoner est capable de générer un système multi-agent personnalisé pour chaque requête utilisateur via un raisonnement délibératif. Les expériences sur des benchmarks de code d'ingénierie et de compétition démontrent la supériorité de FlowReasoner. Notamment, il surpasse o1-mini de 10,52 % en précision sur trois benchmarks. Le code est disponible à l'adresse https://github.com/sail-sg/FlowReasoner.
Les grands modèles de langage (LLM) actuels subissent souvent un affinage supervisé (SFT) pour acquérir des capacités d'utilisation d'outils. Cependant, le SFT peine à généraliser à des scénarios d'utilisation d'outils inconnus ou complexes. Les récents progrès en apprentissage par renforcement (RL), en particulier avec des modèles de type R1, ont démontré des capacités prometteuses de raisonnement et de généralisation. Pourtant, la conception de récompenses pour l'utilisation d'outils présente des défis uniques : plusieurs outils peuvent être invoqués avec des paramètres divers, et les signaux de récompense grossiers, tels que la correspondance des réponses, ne fournissent pas le retour d'information fin nécessaire à un apprentissage efficace. Dans ce travail, nous présentons la première étude complète sur la conception de récompenses pour les tâches de sélection et d'application d'outils dans le paradigme du RL. Nous explorons systématiquement une large gamme de stratégies de récompense, en analysant leurs types, échelles, granularité et dynamiques temporelles. Sur la base de ces observations, nous proposons une conception de récompense structurée, adaptée aux tâches d'utilisation d'outils, et l'appliquons pour entraîner des LLM en utilisant l'Optimisation de Politique Relative par Groupe (GRPO). Les évaluations empiriques sur divers benchmarks démontrent que notre approche permet un entraînement robuste, évolutif et stable, avec une amélioration de 17 % par rapport aux modèles de base et un gain de 15 % par rapport aux modèles SFT. Ces résultats soulignent le rôle crucial d'une conception réfléchie des récompenses pour améliorer les capacités d'utilisation d'outils et la performance de généralisation des LLM. Tous les codes sont publiés pour faciliter les recherches futures.
Le raisonnement intégré d'outils (TIR) enrichit les grands modèles de langage (LLMs) en leur permettant d'invoquer des outils externes, tels que des moteurs de recherche et des interpréteurs de code, pour résoudre des tâches dépassant les capacités du raisonnement basé uniquement sur le langage. Bien que l'apprentissage par renforcement (RL) ait montré des résultats prometteurs pour améliorer le TIR en optimisant l'exactitude des réponses finales, les approches existantes négligent souvent l'efficacité et le coût associés à l'utilisation des outils. Cela peut conduire à des comportements sous-optimaux, incluant des appels excessifs aux outils qui augmentent les charges computationnelles et financières, ou une utilisation insuffisante des outils qui compromet la qualité des réponses. Dans ce travail, nous proposons l'Optimisation de Politique Contrôlée par Appels d'Outils Optimaux (OTC-PO), un cadre simple mais efficace basé sur le RL qui encourage les modèles à produire des réponses précises avec un nombre minimal d'appels d'outils. Notre méthode introduit une récompense intégrée d'outils qui prend en compte conjointement l'exactitude et l'efficacité des outils, favorisant ainsi une productivité élevée des outils. Nous instancions ce cadre à la fois dans l'Optimisation de Politique Proximale (PPO) et dans l'Optimisation de Préférence Relative par Groupe (GRPO), aboutissant à OTC-PPO et OTC-GRPO. Les expériences avec Qwen-2.5 et Qwen-Math sur plusieurs benchmarks de questions-réponses montrent que notre approche réduit les appels d'outils jusqu'à 73,1 % et améliore la productivité des outils jusqu'à 229,4 %, tout en maintenant une exactitude des réponses comparable. À notre connaissance, il s'agit du premier cadre basé sur le RL qui optimise explicitement l'efficacité de l'utilisation des outils dans le TIR.
Les interactions multi-tours avec les modèles de langage (LMs) présentent des risques de sécurité critiques, car des intentions malveillantes peuvent être stratégiquement disséminées à travers plusieurs échanges. Pourtant, la grande majorité des travaux antérieurs s'est concentrée sur la sécurité en un seul tour, tandis que l'adaptabilité et la diversité restent parmi les principaux défis du red-teaming multi-tours. Pour relever ces défis, nous présentons X-Teaming, un cadre évolutif qui explore systématiquement comment des interactions apparemment inoffensives peuvent dégénérer en résultats nuisibles et génère des scénarios d'attaque correspondants. X-Teaming utilise des agents collaboratifs pour la planification, l'optimisation des attaques et la vérification, atteignant une efficacité et une diversité de jailbreak multi-tours de pointe avec des taux de réussite allant jusqu'à 98,1% sur des modèles open-weight et propriétaires leaders. En particulier, X-Teaming atteint un taux de réussite d'attaque de 96,2% contre le dernier modèle Claude 3.7 Sonnet, considéré comme quasi-immunisé aux attaques en un seul tour. Sur la base de X-Teaming, nous introduisons XGuard-Train, un ensemble de données open-source pour l'entraînement à la sécurité multi-tours, 20 fois plus volumineux que la meilleure ressource précédente, comprenant 30K jailbreaks interactifs, conçu pour permettre un alignement robuste de la sécurité multi-tours pour les LMs. Notre travail offre des outils et des insights essentiels pour atténuer les attaques conversationnelles sophistiquées, faisant progresser la sécurité multi-tours des LMs.
Les récents Agents Utilisateurs d'Ordinateurs (CUAs), alimentés par des modèles de langage multimodaux de grande envergure (LLMs), offrent une direction prometteuse pour l'automatisation des workflows complexes sur le bureau grâce au langage naturel. Cependant, la plupart des CUAs existants restent des prototypes conceptuels, entravés par une intégration superficielle au système d'exploitation, une interaction fragile basée sur des captures d'écran, et une exécution perturbatrice. Nous présentons UFO2, un AgentOS multiagents pour les bureaux Windows qui élève les CUAs vers une automatisation pratique et systémique. UFO2 intègre un HostAgent centralisé pour la décomposition et la coordination des tâches, ainsi qu'une collection d'AppAgents spécialisés par application, équipés d'API natives, de connaissances spécifiques au domaine, et d'une couche d'action unifiée GUI--API. Cette architecture permet une exécution robuste des tâches tout en préservant la modularité et l'extensibilité. Un pipeline de détection de contrôle hybride fusionne l'Automatisation de l'Interface Utilisateur Windows (UIA) avec l'analyse basée sur la vision pour supporter divers styles d'interface. L'efficacité en temps d'exécution est en outre améliorée grâce à une planification spéculative multi-actions, réduisant la surcharge par étape des LLM. Enfin, une interface Picture-in-Picture (PiP) permet l'automatisation dans un bureau virtuel isolé, permettant aux agents et aux utilisateurs d'opérer simultanément sans interférence. Nous évaluons UFO2 sur plus de 20 applications Windows réelles, démontrant des améliorations substantielles en robustesse et en précision d'exécution par rapport aux CUAs précédents. Nos résultats montrent qu'une intégration profonde au système d'exploitation ouvre une voie évolutive vers une automatisation de bureau fiable et alignée sur l'utilisateur.
La demande croissante pour les applications de réalité augmentée (RA) et de réalité virtuelle (RV) a mis en lumière le besoin de contenus panoramiques 360° de haute qualité. Cependant, la génération d'images et de vidéos panoramiques 360° de haute qualité reste une tâche complexe en raison des distorsions importantes introduites par la projection équirectangulaire (ERP). Les approches existantes ajustent soit des modèles de diffusion pré-entraînés sur des ensembles de données ERP limités, soit utilisent des méthodes sans ajustement qui reposent toujours sur des représentations latentes ERP, ce qui entraîne des discontinuités près des pôles. Dans cet article, nous présentons SphereDiff, une nouvelle approche pour la génération fluide d'images et de vidéos panoramiques 360° utilisant des modèles de diffusion de pointe sans ajustement supplémentaire. Nous définissons une représentation latente sphérique qui assure une distribution uniforme sur toutes les perspectives, atténuant ainsi les distorsions inhérentes à l'ERP. Nous étendons MultiDiffusion à l'espace latent sphérique et proposons une méthode d'échantillonnage latent sphérique pour permettre l'utilisation directe de modèles de diffusion pré-entraînés. De plus, nous introduisons une moyenne pondérée prenant en compte les distorsions pour améliorer davantage la qualité de génération lors du processus de projection. Notre méthode surpasse les approches existantes dans la génération de contenus panoramiques 360° tout en maintenant une haute fidélité, en faisant une solution robuste pour les applications immersives de RA/RV. Le code est disponible ici : https://github.com/pmh9960/SphereDiff.
Les modèles de raisonnement ont démontré des performances impressionnantes sur des tâches difficiles où les modèles de langage traditionnels peinent. Cependant, beaucoup souffrent du problème de surréflexion—générant un grand nombre de tokens inutiles qui n'améliorent pas la précision sur une question. Nous introduisons des mesures approximatives de la difficulté au niveau du problème et montrons qu'une relation claire existe entre la difficulté du problème et le nombre optimal de tokens à utiliser. Nous évaluons également dans quelle mesure une variété de modèles de raisonnement sont bien calibrés en termes d'allocation efficace du nombre optimal de tokens. Nous constatons qu'en général, les modèles de raisonnement sont mal calibrés, en particulier sur des problèmes faciles. Pour évaluer la calibration sur des questions simples, nous introduisons DUMB500, un ensemble de données de problèmes extrêmement faciles en mathématiques, raisonnement, code et tâches, et évaluons conjointement les modèles de raisonnement sur ces exemples simples et sur des exemples extrêmement difficiles issus de benchmarks de pointe existants dans le même domaine de tâche. Enfin, nous introduisons THOUGHTTERMINATOR, une technique de décodage en boîte noire sans apprentissage qui améliore significativement la calibration des modèles de raisonnement.
Le 3D Gaussian Splatting (3DGS) excelle dans la reconstruction photoréaliste de scènes mais peine avec les scénarios stylisés (par exemple, dessins animés, jeux) en raison de textures fragmentées, d'un désalignement sémantique et d'une adaptabilité limitée aux esthétiques abstraites. Nous proposons StyleMe3D, un cadre holistique pour le transfert de style en 3D GS qui intègre un conditionnement de style multimodal, un alignement sémantique multi-niveaux et une amélioration de la qualité perceptuelle. Nos principales idées incluent : (1) l'optimisation des seuls attributs RGB préserve l'intégrité géométrique pendant la stylisation ; (2) la dissociation des sémantiques de bas, moyen et haut niveau est cruciale pour un transfert de style cohérent ; (3) l'évolutivité à travers des objets isolés et des scènes complexes est essentielle pour un déploiement pratique. StyleMe3D introduit quatre composants novateurs : le Dynamic Style Score Distillation (DSSD), exploitant l'espace latent de Stable Diffusion pour l'alignement sémantique ; le Contrastive Style Descriptor (CSD) pour un transfert de texture localisé et conscient du contenu ; le Simultaneously Optimized Scale (SOS) pour découpler les détails de style et la cohérence structurelle ; et le 3D Gaussian Quality Assessment (3DG-QA), un critère esthétique différentiable entraîné sur des données évaluées par des humains pour supprimer les artefacts et améliorer l'harmonie visuelle. Évalué sur le jeu de données synthétique NeRF (objets) et le jeu de données tandt db (scènes), StyleMe3D surpasse les méthodes de pointe en préservant les détails géométriques (par exemple, les gravures sur les sculptures) et en assurant une cohérence stylistique à travers les scènes (par exemple, un éclairage cohérent dans les paysages), tout en maintenant un rendu en temps réel. Ce travail fait le lien entre le 3D GS photoréaliste et la stylisation artistique, ouvrant des applications dans les jeux, les mondes virtuels et l'art numérique.
La compréhension multi-vues, c'est-à-dire la capacité à concilier des informations visuelles provenant de perspectives diverses pour une navigation, une manipulation et une compréhension de scènes 3D efficaces, constitue un défi fondamental pour les Modèles de Langage Multimodaux (MLLMs) destinés à être utilisés comme agents incarnés. Bien que les MLLMs récents aient montré des avancées impressionnantes en matière de raisonnement et de planification de haut niveau, ils peinent souvent à maintenir une cohérence géométrique multi-vues et une correspondance inter-vues. Pour évaluer de manière exhaustive les défis des MLLMs dans le raisonnement sur des scènes multi-vues, nous proposons All-Angles Bench, un benchmark comprenant plus de 2 100 paires de questions-réponses annotées avec soin par des humains, couvrant 90 scènes réelles variées. Nos six tâches (dénombrement, identification d'attributs, distance relative, direction relative, manipulation d'objets et estimation de la pose de la caméra) testent spécifiquement la correspondance géométrique des modèles et leur capacité à aligner les informations de manière cohérente entre les vues. Nos expériences approfondies, comparant 27 MLLMs représentatifs, dont Gemini-2.0-Flash, Claude-3.7-Sonnet et GPT-4o, à des évaluateurs humains, révèlent un écart de performance substantiel, indiquant que les MLLMs actuels sont encore loin d'atteindre le niveau de compétence humaine. Grâce à une analyse approfondie, nous montrons que les MLLMs sous-performent particulièrement dans deux aspects : (1) la correspondance inter-vues pour les vues partiellement occultées et (2) l'établissement des poses approximatives de la caméra. Ces résultats soulignent la nécessité d'affinements spécifiques au domaine ou de modules intégrant une meilleure conscience multi-vues. Nous croyons que notre All-Angles Bench offre des insights précieux et contribue à combler l'écart entre les MLLMs et la compréhension multi-vues au niveau humain. Le projet et le benchmark sont disponibles publiquement à l'adresse https://danielchyeh.github.io/All-Angles-Bench/.
Dans cet article, nous présentons EasyEdit2, un cadre conçu pour permettre une ajustabilité plug-and-play afin de contrôler les comportements des modèles de langage de grande taille (LLM). EasyEdit2 prend en charge un large éventail d'interventions en temps de test, incluant la sécurité, le sentiment, la personnalité, les schémas de raisonnement, la factualité et les caractéristiques linguistiques. Contrairement à son prédécesseur, EasyEdit2 intègre une nouvelle architecture spécifiquement conçue pour un pilotage fluide des modèles. Il comprend des modules clés tels que le générateur de vecteurs de pilotage et l'applicateur de vecteurs de pilotage, qui permettent la génération et l'application automatiques de vecteurs de pilotage pour influencer le comportement du modèle sans modifier ses paramètres. L'un des principaux avantages d'EasyEdit2 est sa facilité d'utilisation : les utilisateurs n'ont pas besoin de connaissances techniques approfondies. Avec un seul exemple, ils peuvent guider et ajuster efficacement les réponses du modèle, rendant le contrôle précis à la fois accessible et efficace. Empiriquement, nous rapportons les performances de pilotage du modèle sur différents LLM, démontrant l'efficacité de ces techniques. Nous avons publié le code source sur GitHub à l'adresse https://github.com/zjunlp/EasyEdit ainsi qu'un notebook de démonstration. De plus, nous fournissons une vidéo de démonstration à l'adresse https://zjunlp.github.io/project/EasyEdit2/video pour une introduction rapide.
Le contrôle des mouvements de caméra et humains a été largement étudié pour la génération de vidéos, mais les approches existantes les traitent généralement séparément, souffrant de données limitées avec des annotations de haute qualité pour ces deux aspects. Pour surmonter cela, nous présentons Uni3C, un cadre unifié amélioré en 3D pour un contrôle précis à la fois des mouvements de caméra et humains dans la génération de vidéos. Uni3C comprend deux contributions clés. Premièrement, nous proposons un module de contrôle plug-and-play entraîné avec un modèle de génération vidéo figé, PCDController, qui utilise des nuages de points non projetés issus de la profondeur monoculaire pour obtenir un contrôle précis de la caméra. En exploitant les fortes connaissances a priori 3D des nuages de points et les capacités puissantes des modèles de base vidéo, PCDController montre une généralisation impressionnante, performant bien que le modèle d'inférence soit figé ou affiné. Cette flexibilité permet aux différents modules d'Uni3C d'être entraînés dans des domaines spécifiques, c'est-à-dire soit le contrôle de la caméra, soit le contrôle des mouvements humains, réduisant ainsi la dépendance aux données annotées conjointement. Deuxièmement, nous proposons un guidage 3D aligné conjointement pour la phase d'inférence qui intègre de manière transparente à la fois les nuages de points scéniques et les personnages SMPL-X pour unifier les signaux de contrôle respectivement pour la caméra et les mouvements humains. Des expériences approfondies confirment que PCDController bénéficie d'une forte robustesse pour piloter les mouvements de caméra dans les modèles de génération vidéo affinés. Uni3C surpasse largement les concurrents à la fois en termes de contrôlabilité de la caméra et de qualité des mouvements humains. De plus, nous avons collecté des ensembles de validation spécifiques mettant en avant des mouvements de caméra et des actions humaines complexes pour valider l'efficacité de notre méthode.
Nous présentons LeetCodeDataset, un benchmark de haute qualité pour l'évaluation et l'entraînement de modèles de génération de code, répondant à deux défis majeurs dans la recherche sur les LLM : le manque de benchmarks de codage axés sur le raisonnement et de bancs d'essai d'entraînement autonomes. En sélectionnant des problèmes Python de LeetCode avec des métadonnées riches, une couverture étendue, plus de 100 cas de test par problème et des divisions temporelles (avant/après juillet 2024), notre dataset permet une évaluation sans contamination et un fine-tuning supervisé (SFT) efficace. Les expériences montrent que les modèles de raisonnement surpassent significativement leurs homologues non raisonnés, tandis que le SFT avec seulement 2,6K solutions générées par le modèle atteint des performances comparables à celles obtenues avec 110K échantillons. Le dataset et le cadre d'évaluation sont disponibles sur Hugging Face et Github.
Les modèles de langage multimodaux de grande taille (MLLMs) ont propulsé les agents d'interface graphique (GUI), démontrant un potentiel prometteur pour l'automatisation des tâches sur les dispositifs informatiques. Les travaux récents ont commencé à explorer le raisonnement dans les tâches d'interface graphique avec des résultats encourageants. Cependant, de nombreuses approches actuelles reposent sur des modèles de raisonnement conçus manuellement, ce qui peut entraîner un raisonnement insuffisamment robuste et adaptatif pour des environnements d'interface graphique complexes. Par ailleurs, certains agents existants continuent de fonctionner comme des acteurs réactifs, s'appuyant principalement sur un raisonnement implicite qui peut manquer de profondeur pour les tâches d'interface graphique nécessitant de la planification et de la récupération d'erreurs. Nous soutenons que l'amélioration de ces agents nécessite une transition de l'action réactive vers une action basée sur un raisonnement délibéré. Pour faciliter cette transformation, nous présentons InfiGUI-R1, un agent d'interface graphique basé sur un MLLM développé grâce à notre framework Actor2Reasoner, une approche de formation en deux étapes centrée sur le raisonnement, conçue pour faire évoluer progressivement les agents d'acteurs réactifs à des raisonneurs délibératifs. La première étape, l'Injection de Raisonnement, se concentre sur l'établissement d'un raisonneur de base. Nous utilisons la Distillation de Raisonnement Spatial pour transférer les capacités de raisonnement spatial intermodal des modèles enseignants aux MLLMs à travers des trajectoires avec des étapes de raisonnement explicites, permettant aux modèles d'intégrer les informations visuelles-spatiales de l'interface graphique avec le raisonnement logique avant la génération d'actions. La deuxième étape, l'Amélioration de la Délibération, affine le raisonneur de base en un raisonneur délibératif en utilisant l'apprentissage par renforcement. Cette étape introduit deux approches : le Guidage par Sous-objectifs, qui récompense les modèles pour la génération de sous-objectifs intermédiaires précis, et la Construction de Scénarios de Récupération d'Erreurs, qui crée des scénarios d'entraînement d'échec-et-récupération à partir d'étapes identifiées comme sujettes à erreurs. Les résultats expérimentaux montrent qu'InfiGUI-R1 obtient de solides performances dans les tâches de fondation d'interface graphique et de trajectoire. Ressources disponibles sur https://github.com/Reallm-Labs/InfiGUI-R1.
Les agents d'interface graphique mobile (GUI) montrent un potentiel prometteur pour l'automatisation des tâches, mais se heurtent à des défis de généralisation dans des scénarios réels diversifiés. Les approches traditionnelles utilisant le pré-entraînement ou le fine-tuning avec des ensembles de données massifs peinent à gérer la diversité des applications mobiles et des tâches spécifiques aux utilisateurs. Nous proposons d'améliorer les capacités des agents GUI mobiles grâce à des démonstrations humaines, en nous concentrant sur l'amélioration des performances dans des scénarios inédits plutôt que de viser une généralisation universelle via des ensembles de données plus vastes. Pour concrétiser ce paradigme, nous introduisons LearnGUI, le premier ensemble de données complet spécialement conçu pour étudier l'apprentissage basé sur les démonstrations pour les agents GUI mobiles, comprenant 2 252 tâches hors ligne et 101 tâches en ligne avec des démonstrations humaines de haute qualité. Nous développons également LearnAct, un cadre multi-agent sophistiqué qui extrait automatiquement des connaissances à partir des démonstrations pour améliorer l'exécution des tâches. Ce cadre intègre trois agents spécialisés : DemoParser pour l'extraction de connaissances, KnowSeeker pour la récupération de connaissances pertinentes, et ActExecutor pour l'exécution des tâches améliorée par les démonstrations. Nos résultats expérimentaux montrent des gains de performance significatifs dans les évaluations hors ligne et en ligne. Dans les évaluations hors ligne, une seule démonstration améliore les performances du modèle, augmentant la précision de Gemini-1.5-Pro de 19,3 % à 51,7 %. Dans les évaluations en ligne, notre cadre améliore le taux de réussite des tâches de UI-TARS-7B-SFT de 18,1 % à 32,8 %. Le cadre LearnAct et le benchmark LearnGUI établissent l'apprentissage basé sur les démonstrations comme une direction prometteuse pour des agents GUI mobiles plus adaptables, personnalisés et déployables.
Nous présentons Distributional RewArds for Generative OptimizatioN (DRAGON), un cadre polyvalent pour le fine-tuning de modèles de génération de médias en vue d'un résultat souhaité. Comparé aux approches traditionnelles de renforcement avec feedback humain (RLHF) ou de préférences par paires telles que l'optimisation directe des préférences (DPO), DRAGON offre une plus grande flexibilité. Il permet d'optimiser des fonctions de récompense qui évaluent soit des exemples individuels, soit des distributions d'exemples, le rendant compatible avec un large éventail de récompenses basées sur des instances, des instances à distribution, et des distributions à distributions. En exploitant cette polyvalence, nous construisons des fonctions de récompense innovantes en sélectionnant un encodeur et un ensemble d'exemples de référence pour créer une distribution d'exemplaires. Lorsque des encodeurs intermodaux comme CLAP sont utilisés, les exemples de référence peuvent appartenir à une modalité différente (par exemple, texte versus audio). Ensuite, DRAGON collecte des générations en ligne et sur politique, les évalue pour construire un ensemble de démonstrations positives et un ensemble négatif, et exploite le contraste entre ces deux ensembles pour maximiser la récompense. Pour l'évaluation, nous effectuons le fine-tuning d'un modèle de diffusion texte-à-musique dans le domaine audio avec 20 fonctions de récompense différentes, incluant un modèle personnalisé d'esthétique musicale, le score CLAP, la diversité Vendi, et la distance audio de Fréchet (FAD). Nous comparons également les paramètres FAD par instance (par chanson) et sur l'ensemble du dataset tout en effectuant une ablation sur plusieurs encodeurs FAD et ensembles de référence. Sur l'ensemble des 20 récompenses cibles, DRAGON atteint un taux de réussite moyen de 81,45%. De plus, les fonctions de récompense basées sur des ensembles d'exemplaires améliorent effectivement les générations et sont comparables aux récompenses basées sur des modèles. Avec un ensemble d'exemplaires approprié, DRAGON atteint un taux de réussite de 60,95% en qualité musicale votée par des humains sans entraînement sur des annotations de préférences humaines. Ainsi, DRAGON illustre une nouvelle approche pour concevoir et optimiser des fonctions de récompense afin d'améliorer la qualité perçue par les humains. Des exemples sonores sont disponibles à l'adresse https://ml-dragon.github.io/web.
Les grands modèles de langage (LLMs) ont démontré de solides capacités de raisonnement, en particulier lorsqu'ils sont améliorés par l'apprentissage par renforcement (RL). Bien que les travaux antérieurs aient appliqué avec succès le RL au raisonnement mathématique — où les règles et la justesse sont bien définies — la généralisation de ces méthodes à des domaines de raisonnement plus vastes reste difficile en raison de données limitées, de l'absence de structures de récompense vérifiables et de la diversité des exigences des tâches. Dans ce travail, nous proposons NEMOTRON-CROSSTHINK, un cadre qui intègre systématiquement des corpus multi-domaines, incluant des paires de questions-réponses synthétiques et réelles, dans l'entraînement par RL pour améliorer la généralisation à travers diverses tâches de raisonnement. NEMOTRON-CROSSTHINK aborde les principaux défis en (1) incorporant des données provenant de sources variées couvrant les STEM, les sciences humaines, les sciences sociales, etc. ; (2) appliquant des modèles structurés (par exemple, à choix multiples et à réponse ouverte) pour contrôler la complexité de l'espace des réponses ; (3) filtrant les réponses vérifiables ; et (4) optimisant les stratégies de mélange de données qui utilisent efficacement les données provenant de multiples sources. Notre approche permet une modélisation des récompenses scalable et vérifiable au-delà des mathématiques et démontre des améliorations de précision à la fois sur des benchmarks de raisonnement mathématique (MATH-500 : +30,1 %, AMC23 : +27,5 %) et non mathématique (MMLU-PRO : +12,8 %, GPQA-DIAMOND : +11,3 %, AGIEVAL : +15,1 %, SUPERGPQA : +3,8 %). De plus, NEMOTRON-CROSSTHINK montre une efficacité de réponse significativement améliorée — utilisant 28 % de tokens en moins pour les réponses correctes — mettant en évidence un raisonnement plus ciblé et efficace. À travers NEMOTRON-CROSSTHINK, nous démontrons que l'intégration de données multi-domaines et multi-formats dans le RL conduit à des LLMs plus précis, efficaces et généralisables.
Les modèles multimodaux de grande taille (LMMs) perçoivent uniformément les images vidéo, ce qui entraîne une inefficacité computationnelle pour les vidéos présentant une densité d'information temporelle intrinsèquement variable. Cet article présente Quicksviewer, un LMM doté d'un nouveau paradigme de perception qui partitionne une vidéo de densité non uniforme en cubes variables à l'aide de Gumbel Softmax, suivi d'un rééchantillonnage unifié pour chaque cube afin de parvenir à une compréhension vidéo efficace. Cette approche simple et intuitive compresse dynamiquement la vidéo en ligne en fonction de sa densité temporelle, réduisant significativement la redondance spatiotemporelle (taux de compression global de 45 fois), tout en permettant un entraînement efficace avec un grand champ réceptif. Nous entraînons le modèle à partir d'une architecture linguistique à travers trois étapes progressives, chacune incorporant des vidéos longues en moyenne de 420s/1fps grâce à l'efficacité de perception. Avec seulement 0,8 million d'échantillons vidéo-texte pour l'entraînement, notre modèle surpasse le modèle de référence utilisant une stratégie de partitionnement fixe avec une précision maximale de 8,72, démontrant ainsi son efficacité en termes de performance. Sur Video-MME, Quicksviewer atteint l'état de l'art (SOTA) pour des longueurs de séquence modestes en utilisant seulement jusqu'à 5 % des tokens par image requis par les modèles de référence. Avec ce paradigme, l'augmentation du nombre d'images d'entrée révèle une loi de puissance claire des capacités du modèle. Il est également vérifié empiriquement que les segments générés par le réseau de cubage peuvent aider à analyser les événements continus dans les vidéos.
Nous présentons TAPIP3D, une nouvelle approche pour le suivi à long terme de points 3D dans des vidéos monoscopiques RVB et RVB-D. TAPIP3D représente les vidéos sous forme de nuages de caractéristiques spatio-temporelles stabilisés par rapport à la caméra, exploitant les informations de profondeur et de mouvement de la caméra pour projeter les caractéristiques 2D de la vidéo dans un espace 3D mondial où le mouvement de la caméra est efficacement annulé. TAPIP3D affine itérativement les estimations de mouvement 3D multi-images au sein de cette représentation stabilisée, permettant un suivi robuste sur de longues périodes. Pour gérer les irrégularités inhérentes des distributions de points 3D, nous proposons un mécanisme d'Attention Locale par Paires. Cette stratégie de contextualisation 3D exploite efficacement les relations spatiales en 3D, formant des voisinages de caractéristiques informatifs pour une estimation précise des trajectoires 3D. Notre approche centrée sur la 3D surpasse significativement les méthodes existantes de suivi de points 3D et améliore même la précision du suivi 2D par rapport aux trackeurs de pixels 2D conventionnels lorsque la profondeur est précise. Elle prend en charge l'inférence à la fois dans les coordonnées de la caméra (c'est-à-dire non stabilisées) et dans les coordonnées mondiales, et nos résultats démontrent que la compensation du mouvement de la caméra améliore les performances de suivi. Notre approche remplace les voisinages de corrélation carrés 2D utilisés dans les trackeurs 2D et 3D précédents, conduisant à des résultats plus robustes et précis sur divers benchmarks de suivi de points 3D. Page du projet : https://tapip3d.github.io
L'anamorphose désigne une catégorie d'images délibérément déformées, les rendant méconnaissables lorsqu'elles sont vues directement. Leur véritable forme ne se révèle que lorsqu'elles sont observées depuis un point de vue spécifique, souvent à l'aide d'un dispositif catadioptrique tel qu'un miroir ou une lentille. Bien que la construction de ces dispositifs mathématiques remonte au XVIIe siècle, ils ne sont interprétables que depuis un angle de vue particulier et perdent leur sens lorsqu'ils sont vus normalement. Dans cet article, nous revisitons ces célèbres illusions d'optique avec une approche générative. À l'aide de modèles de flux rectifiés latents, nous proposons une méthode pour créer des images anamorphiques qui conservent une interprétation valide même lorsqu'elles sont vues directement. Pour ce faire, nous introduisons le Laplacian Pyramid Warping, une technique de déformation d'image sensible aux fréquences, essentielle pour générer des visuels de haute qualité. Notre travail étend les Visual Anagrams (arXiv:2311.17919) aux modèles d'espace latent et à une gamme plus large de transformations spatiales, permettant la création de nouvelles illusions perceptives génératives.
Les modèles de langage de grande taille (LLMs) démontrent des capacités remarquables mais sont vulnérables aux prompts adverses qui exploitent leurs faiblesses pour produire des sorties dangereuses ou biaisées. Les méthodes existantes de red-teaming rencontrent souvent des défis de scalabilité, des exigences intensives en ressources, ou une diversité limitée dans les stratégies d'attaque. Nous proposons RainbowPlus, un nouveau cadre de red-teaming basé sur le calcul évolutif, améliorant la génération de prompts adverses grâce à une recherche adaptative de qualité-diversité (QD) qui étend les algorithmes évolutifs classiques comme MAP-Elites avec des innovations spécifiques aux modèles de langage. En utilisant une archive multi-éléments pour stocker des prompts diversifiés et de haute qualité, ainsi qu'une fonction de fitness complète pour évaluer plusieurs prompts simultanément, RainbowPlus surmonte les limitations des archives à prompt unique et des comparaisons par paires dans les méthodes QD précédentes comme Rainbow Teaming. Les expériences comparant RainbowPlus aux méthodes QD sur six ensembles de données de référence et quatre LLMs open-source démontrent un taux de réussite d'attaque (ASR) supérieur et une diversité accrue (Diverse-Score ≈ 0.84), générant jusqu'à 100 fois plus de prompts uniques (par exemple, 10 418 contre 100 pour Ministral-8B-Instruct-2410). Face à neuf méthodes de pointe sur le jeu de données HarmBench avec douze LLMs (dix open-source, deux fermés), RainbowPlus atteint un ASR moyen de 81,1 %, surpassant AutoDAN-Turbo de 3,9 %, et est 9 fois plus rapide (1,45 contre 13,50 heures). Notre implémentation open-source favorise les avancées futures en matière de sécurité des LLMs, offrant un outil scalable pour l'évaluation des vulnérabilités. Le code et les ressources sont disponibles publiquement à l'adresse https://github.com/knoveleng/rainbowplus, soutenant la reproductibilité et les recherches futures en red-teaming des LLMs.
Les grands modèles de langage (LLM) sont de plus en plus déployés dans des pipelines de traitement de données spécialisés à travers divers domaines — tels que la finance, le marketing et le commerce électronique. Cependant, lorsqu'ils sont exécutés en production sur de nombreuses entrées, ils échouent souvent à suivre les instructions ou à répondre aux attentes des développeurs. Pour améliorer la fiabilité dans ces applications, il est essentiel de créer des assertions ou des garde-fous pour les sorties des LLM à exécuter parallèlement aux pipelines. Pourtant, déterminer le bon ensemble d'assertions qui capture les exigences des développeurs pour une tâche est un défi. Dans cet article, nous présentons PROMPTEVALS, un ensemble de données de 2087 prompts de pipelines LLM avec 12623 critères d'assertion correspondants, provenant de développeurs utilisant nos outils open-source de pipelines LLM. Cet ensemble de données est 5 fois plus volumineux que les collections précédentes. En utilisant une partition de test réservée de PROMPTEVALS comme référence, nous avons évalué des modèles propriétaires et open-source dans la génération d'assertions pertinentes. Notamment, nos modèles Mistral et Llama 3 affinés surpassent GPT-4o de 20,93 % en moyenne, offrant à la fois une latence réduite et une performance améliorée. Nous croyons que notre ensemble de données peut stimuler davantage de recherches sur la fiabilité, l'alignement et l'ingénierie des prompts des LLM.
Cette étude réalise une comparaison détaillée entre le modèle de base de détection d'objets RF-DETR et les configurations du modèle de détection d'objets YOLOv12 pour la détection de fruits verts dans un environnement complexe de verger marqué par une ambiguïté d'étiquetage, des occlusions et un mélange avec l'arrière-plan. Un jeu de données personnalisé a été développé, comportant des annotations à classe unique (fruits verts) et multi-classes (fruits verts occlus et non occlus) afin d'évaluer les performances des modèles dans des conditions dynamiques du monde réel. Le modèle de détection d'objets RF-DETR, utilisant une architecture DINOv2 et une attention déformable, a excellé dans la modélisation du contexte global, identifiant efficacement les fruits verts partiellement occlus ou ambigus. En revanche, YOLOv12 a exploité une attention basée sur les CNN pour une extraction améliorée des caractéristiques locales, l'optimisant ainsi pour l'efficacité computationnelle et le déploiement en périphérie. RF-DETR a atteint la plus haute précision moyenne (mAP50) de 0,9464 en détection à classe unique, démontrant sa capacité supérieure à localiser les fruits verts dans des scènes encombrées. Bien que YOLOv12N ait enregistré la plus haute mAP@50:95 de 0,7620, RF-DETR a constamment surpassé les autres dans des scénarios spatiaux complexes. Pour la détection multi-classes, RF-DETR a mené avec une mAP@50 de 0,8298, montrant sa capacité à différencier les fruits occlus des non occlus, tandis que YOLOv12L a obtenu le score le plus élevé en mAP@50:95 avec 0,6622, indiquant une meilleure classification dans des contextes d'occlusion détaillés. L'analyse de la dynamique d'apprentissage a mis en évidence la convergence rapide de RF-DETR, en particulier dans les configurations à classe unique où il a atteint un plateau en moins de 10 époques, démontrant l'efficacité des architectures basées sur les transformateurs pour s'adapter aux données visuelles dynamiques. Ces résultats valident l'efficacité de RF-DETR pour les applications agricoles de précision, tandis que YOLOv12 est adapté aux scénarios nécessitant une réponse rapide. >Termes indexés : Détection d'objets RF-DETR, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Transformers de détection, CNN.
Les modèles de fondation visuelle (VFMs) tels que DINOv2 et CLIP ont obtenu des résultats impressionnants sur diverses tâches en aval, mais leur résolution de caractéristiques limitée entrave les performances dans les applications nécessitant une compréhension au niveau des pixels. Le suréchantillonnage des caractéristiques offre une direction prometteuse pour relever ce défi. Dans ce travail, nous identifions deux facteurs critiques pour améliorer le suréchantillonnage des caractéristiques : l'architecture du suréchantillonneur et l'objectif d'entraînement. Pour l'architecture du suréchantillonneur, nous introduisons un transformeur à attention croisée basé sur les coordonnées qui intègre les images haute résolution avec les coordonnées et les caractéristiques VFM basse résolution pour générer des caractéristiques nettes et de haute qualité. Pour l'objectif d'entraînement, nous proposons de construire des caractéristiques pseudo-vérité terrain haute résolution en exploitant des masques agnostiques à la classe et l'auto-distillation. Notre approche capture efficacement les détails fins et s'adapte de manière flexible à diverses résolutions d'entrée et de caractéristiques. À travers des expériences, nous démontrons que notre approche surpasse significativement les techniques existantes de suréchantillonnage des caractéristiques sur diverses tâches en aval. Notre code est disponible à l'adresse https://github.com/andrehuang/loftup.
Nous présentons une approche pour détecter et suivre les poses 3D détaillées de plusieurs personnes à partir d'un flux vidéo monoculaire unique. Notre système maintient des prédictions temporellement cohérentes dans des scènes encombrées comportant des poses complexes et des occlusions. Notre modèle effectue à la fois une détection robuste par image et une mise à jour apprise des poses pour suivre les personnes d'une image à l'autre. Plutôt que de faire correspondre les détections dans le temps, les poses sont mises à jour directement à partir d'une nouvelle image d'entrée, ce qui permet un suivi en ligne malgré les occlusions. Nous entraînons notre modèle sur de nombreux ensembles de données d'images et de vidéos en exploitant des annotations pseudo-étiquetées pour produire un modèle qui rivalise avec les systèmes de pointe en termes de précision d'estimation des poses 3D, tout en étant plus rapide et plus précis pour suivre plusieurs personnes dans le temps. Le code et les poids sont disponibles à l'adresse suivante : https://github.com/apple/ml-comotion.
Nous concevons une suite de tâches algorithmiques minimalistes qui constituent une abstraction approximative de tâches réelles ouvertes. Cela nous permet de quantifier de manière claire et contrôlée les limites créatives des modèles de langage actuels. Tout comme les tâches réelles qui nécessitent un saut de pensée créatif et visionnaire, nos tâches requièrent une étape de planification stochastique implicite et ouverte qui soit (a) découvre de nouvelles connexions dans un graphe de connaissances abstrait (comme dans les jeux de mots, les analogies ou la recherche), soit (b) construit de nouveaux motifs (comme dans la conception de problèmes mathématiques ou de nouvelles protéines). Dans ces tâches, nous argumentons empiriquement et conceptuellement que l'apprentissage par prédiction du prochain token est myope et mémorise excessivement ; en comparaison, les approches multi-tokens, notamment l'entraînement sans enseignant et les modèles de diffusion, excellent à produire des sorties diversifiées et originales. Deuxièmement, dans nos tâches, nous constatons que pour susciter de l'aléatoire dans le Transformer sans nuire à la cohérence, il est préférable d'injecter du bruit directement au niveau de la couche d'entrée (via une méthode que nous appelons "hash-conditioning") plutôt que de recourir à l'échantillonnage par température à partir de la couche de sortie. Ainsi, notre travail propose un banc d'essai minimal et méthodique pour analyser les compétences créatives ouvertes, et offre de nouveaux arguments pour aller au-delà de l'apprentissage par prédiction du prochain token et de l'échantillonnage basé sur softmax. Nous mettons une partie du code à disposition sur https://github.com/chenwu98/algorithmic-creativity.
Les modèles de langage visuel médicaux ont démontré un grand potentiel dans diverses applications de soins de santé, notamment la génération de légendes pour les images médicales et l'assistance au diagnostic. Cependant, la plupart des modèles existants reposent sur des instructions textuelles, ce qui limite leur utilité dans les environnements cliniques réels, en particulier dans des scénarios tels que la chirurgie, où l'interaction textuelle est souvent peu pratique pour les médecins. De plus, les modèles actuels d'analyse d'images médicales manquent généralement de raisonnements complets derrière leurs prédictions, ce qui réduit leur fiabilité pour la prise de décision clinique. Étant donné que les erreurs de diagnostic médical peuvent avoir des conséquences dramatiques, il est crucial de disposer d'une assistance médicale interprétable et rationnelle. Pour relever ces défis, nous introduisons SilVar-Med, un modèle de langage visuel médical piloté par la parole de bout en bout, un assistant d'images médicales multimodal qui intègre l'interaction vocale avec les modèles de langage visuel, ouvrant la voie à la communication vocale pour l'analyse d'images médicales. En outre, nous nous concentrons sur l'interprétation du raisonnement derrière chaque prédiction d'anomalies médicales avec un jeu de données de raisonnement proposé. À travers des expériences approfondies, nous démontrons une étude de preuve de concept pour l'interprétation d'images médicales basée sur le raisonnement avec une interaction vocale de bout en bout. Nous croyons que ce travail fera progresser le domaine de l'IA médicale en favorisant des systèmes de support diagnostique plus transparents, interactifs et cliniquement viables. Notre code et notre jeu de données sont disponibles publiquement sur SilVar-Med.