Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le modèle de langage multimodal de grande envergure (MLLM) connaît actuellement une croissance rapide, portée par les capacités avancées des LLM. Contrairement aux spécialistes antérieurs, les MLLM existants évoluent vers un paradigme de généraliste multimodal. Initialement limités à la compréhension de multiples modalités, ces modèles ont progressé pour non seulement comprendre mais aussi générer des contenus à travers les modalités. Leurs capacités se sont étendues, passant d'une compréhension multimodale grossière à fine, et de la prise en charge de modalités limitées à des modalités arbitraires. Bien que de nombreux benchmarks existent pour évaluer les MLLM, une question cruciale se pose : pouvons-nous simplement supposer qu'une performance supérieure à travers les tâches indique une capacité MLLM plus forte, nous rapprochant ainsi d'une IA de niveau humain ? Nous soutenons que la réponse n'est pas aussi simple qu'il y paraît. Ce projet introduit General-Level, un cadre d'évaluation qui définit 5 niveaux d'échelle de performance et de généralité des MLLM, offrant une méthodologie pour comparer les MLLM et mesurer les progrès des systèmes existants vers des généralistes multimodaux plus robustes et, finalement, vers l'AGI. Au cœur de ce cadre se trouve le concept de Synergie, qui mesure si les modèles maintiennent des capacités cohérentes à travers la compréhension et la génération, et à travers plusieurs modalités. Pour soutenir cette évaluation, nous présentons General-Bench, qui englobe un spectre plus large de compétences, modalités, formats et capacités, incluant plus de 700 tâches et 325 800 instances. Les résultats d'évaluation impliquant plus de 100 MLLM de pointe existants révèlent les classements de capacité des généralistes, mettant en lumière les défis pour atteindre une véritable IA. Nous espérons que ce projet ouvrira la voie à des recherches futures sur les modèles de fondation multimodaux de nouvelle génération, fournissant une infrastructure robuste pour accélérer la réalisation de l'AGI. Page du projet : https://generalist.top/
Les grands modèles de langage (LLM) sont sujets aux hallucinations, et la génération augmentée par récupération (RAG) aide à atténuer ce problème, mais à un coût computationnel élevé tout en risquant de propager des informations erronées. La récupération adaptative vise à récupérer uniquement lorsque c'est nécessaire, mais les approches existantes reposent sur l'estimation de l'incertitude basée sur les LLM, qui reste inefficace et peu pratique. Dans cette étude, nous introduisons des méthodes légères de récupération adaptative indépendantes des LLM, basées sur des informations externes. Nous avons étudié 27 caractéristiques, organisées en 7 groupes, ainsi que leurs combinaisons hybrides. Nous avons évalué ces méthodes sur 6 ensembles de données de questions-réponses (QA), en mesurant les performances en QA et l'efficacité. Les résultats montrent que notre approche atteint des performances comparables à celles des méthodes complexes basées sur les LLM tout en obtenant des gains d'efficacité significatifs, démontrant ainsi le potentiel des informations externes pour la récupération adaptative.
Ces dernières années ont été marquées par des progrès remarquables dans les modèles de compréhension multimodale et les modèles de génération d'images. Malgré leurs succès respectifs, ces deux domaines ont évolué de manière indépendante, conduisant à des paradigmes architecturaux distincts : alors que les architectures basées sur des modèles autorégressifs ont dominé la compréhension multimodale, les modèles basés sur la diffusion sont devenus la pierre angulaire de la génération d'images. Récemment, un intérêt croissant s'est manifesté pour le développement de cadres unifiés intégrant ces tâches. L'émergence des nouvelles capacités de GPT-4o illustre cette tendance, mettant en lumière le potentiel d'unification. Cependant, les différences architecturales entre ces deux domaines posent des défis significatifs. Pour offrir un aperçu clair des efforts actuels vers l'unification, nous présentons une étude approfondie visant à orienter les recherches futures. Tout d'abord, nous introduisons les concepts fondamentaux et les avancées récentes dans les modèles de compréhension multimodale et de génération d'images à partir de texte. Ensuite, nous passons en revue les modèles unifiés existants, en les classant en trois principaux paradigmes architecturaux : les approches basées sur la diffusion, les approches autorégressives, et les approches hybrides qui fusionnent les mécanismes autorégressifs et de diffusion. Pour chaque catégorie, nous analysons les conceptions structurelles et les innovations introduites par les travaux connexes. De plus, nous compilons des ensembles de données et des benchmarks spécifiquement adaptés aux modèles unifiés, offrant ainsi des ressources pour des explorations futures. Enfin, nous discutons des principaux défis auxquels ce domaine naissant est confronté, notamment la stratégie de tokenisation, l'attention intermodale et les données. Étant donné que ce domaine en est encore à ses débuts, nous anticipons des avancées rapides et mettrons régulièrement à jour cette étude. Notre objectif est d'inspirer des recherches supplémentaires et de fournir une référence précieuse pour la communauté. Les références associées à cette étude sont disponibles sur GitHub (https://github.com/AIDC-AI/Awesome-Unified-Multimodal-Models).
La recherche efficace d'informations est essentielle pour améliorer les capacités de raisonnement et de génération des grands modèles de langage (LLMs). Des recherches récentes ont exploré l'utilisation de l'apprentissage par renforcement (RL) pour améliorer les capacités de recherche des LLMs en interagissant avec des moteurs de recherche en temps réel dans des environnements réels. Bien que ces approches montrent des résultats prometteurs, elles rencontrent deux défis majeurs : (1) Qualité incontrôlée des documents : La qualité des documents renvoyés par les moteurs de recherche est souvent imprévisible, introduisant du bruit et de l'instabilité dans le processus d'entraînement. (2) Coûts d'API prohibitifs : L'entraînement par RL nécessite des déploiements fréquents, impliquant potentiellement des centaines de milliers de requêtes de recherche, ce qui engendre des dépenses d'API substantielles et limite fortement la scalabilité. Pour relever ces défis, nous introduisons ZeroSearch, un cadre d'apprentissage par renforcement qui stimule les capacités de recherche des LLMs sans interagir avec de vrais moteurs de recherche. Notre approche commence par un ajustement supervisé léger pour transformer le LLM en un module de recherche capable de générer à la fois des documents pertinents et bruyants en réponse à une requête. Pendant l'entraînement RL, nous utilisons une stratégie de déploiement basée sur un curriculum qui dégrade progressivement la qualité des documents générés, sollicitant de manière progressive la capacité de raisonnement du modèle en l'exposant à des scénarios de recherche de plus en plus difficiles. Des expériences approfondies démontrent que ZeroSearch stimule efficacement les capacités de recherche des LLMs en utilisant un LLM de 3B comme module de recherche. Fait remarquable, un module de recherche de 7B atteint des performances comparables à celles d'un véritable moteur de recherche, tandis qu'un module de 14B les dépasse même. De plus, il généralise bien sur des modèles de base et ajustés par instruction de différentes tailles de paramètres et est compatible avec une large gamme d'algorithmes RL.
La génération de vidéos personnalisées vise à produire des vidéos mettant en scène des sujets spécifiques sous des conditions flexibles définies par l'utilisateur, mais les méthodes existantes rencontrent souvent des difficultés avec la cohérence d'identité et les modalités d'entrée limitées. Dans cet article, nous proposons HunyuanCustom, un cadre de génération de vidéos personnalisées multi-modales qui met l'accent sur la cohérence du sujet tout en prenant en charge les conditions d'image, d'audio, de vidéo et de texte. Basé sur HunyuanVideo, notre modèle aborde d'abord la tâche de génération conditionnée par image et texte en introduisant un module de fusion texte-image basé sur LLaVA pour une meilleure compréhension multi-modale, ainsi qu'un module d'amélioration d'identité d'image qui exploite la concaténation temporelle pour renforcer les caractéristiques d'identité à travers les images. Pour permettre la génération conditionnée par audio et vidéo, nous proposons en outre des mécanismes d'injection de conditions spécifiques à chaque modalité : un module AudioNet qui réalise un alignement hiérarchique via une attention croisée spatiale, et un module d'injection piloté par la vidéo qui intègre une vidéo conditionnelle compressée en latence à travers un réseau d'alignement de caractéristiques basé sur la patchification. Des expériences approfondies sur des scénarios à un seul sujet et à plusieurs sujets démontrent que HunyuanCustom surpasse significativement les méthodes open-source et propriétaires de pointe en termes de cohérence d'identité, de réalisme et d'alignement texte-vidéo. De plus, nous validons sa robustesse dans diverses tâches en aval, y compris la génération de vidéos personnalisées pilotées par l'audio et la vidéo. Nos résultats mettent en évidence l'efficacité des stratégies de conditionnement multi-modal et de préservation d'identité pour faire progresser la génération de vidéos contrôlables. Tous les codes et modèles sont disponibles à l'adresse https://hunyuancustom.github.io.
L'abstraction par primitives de forme, qui décompose des formes 3D complexes en éléments géométriques simples, joue un rôle crucial dans la cognition visuelle humaine et trouve de nombreuses applications en vision par ordinateur et en infographie. Bien que les récents progrès dans la génération de contenu 3D aient montré des avancées remarquables, les méthodes existantes d'abstraction par primitives reposent soit sur une optimisation géométrique avec une compréhension sémantique limitée, soit sur l'apprentissage à partir de jeux de données spécifiques à une catégorie et de petite taille, ce qui limite leur capacité à généraliser à travers des catégories de formes diverses. Nous présentons PrimitiveAnything, un nouveau cadre qui reformule l'abstraction par primitives de forme comme une tâche de génération d'assemblages de primitives. PrimitiveAnything inclut un transformeur de primitives conditionné par la forme pour la génération auto-régressive et un schéma de paramétrisation sans ambiguïté pour représenter plusieurs types de primitives de manière unifiée. Le cadre proposé apprend directement le processus d'assemblage de primitives à partir de grandes abstractions créées par l'homme, lui permettant de capturer la manière dont les humains décomposent des formes complexes en éléments primitifs. À travers des expériences approfondies, nous démontrons que PrimitiveAnything peut générer des assemblages de primitives de haute qualité qui s'alignent mieux sur la perception humaine tout en maintenant une fidélité géométrique à travers diverses catégories de formes. Il bénéficie à diverses applications 3D et montre un potentiel pour permettre la création de contenu généré par l'utilisateur (UGC) basé sur des primitives dans les jeux. Page du projet : https://primitiveanything.github.io
Le CLIP d'OpenAI, publié début 2021, a longtemps été le choix privilégié d'encodeur visuel pour la construction de modèles fondationnels multimodaux. Bien que des alternatives récentes comme SigLIP commencent à remettre en cause ce statu quo, à notre connaissance, aucune n'est entièrement ouverte : leurs données d'entraînement restent propriétaires et/ou leurs méthodes d'entraînement ne sont pas divulguées. Cet article comble cette lacune avec OpenVision, une famille d'encodeurs visuels entièrement ouverte et économique, qui égalent ou surpassent les performances du CLIP d'OpenAI lorsqu'ils sont intégrés dans des frameworks multimodaux comme LLaVA. OpenVision s'appuie sur des travaux existants — par exemple, CLIPS pour le framework d'entraînement et Recap-DataComp-1B pour les données d'entraînement — tout en révélant plusieurs insights clés pour améliorer la qualité des encodeurs et en démontrant les avantages pratiques pour faire progresser les modèles multimodaux. En publiant des encodeurs visuels allant de 5,9M à 632,1M de paramètres, OpenVision offre aux praticiens un compromis flexible entre capacité et efficacité pour construire des modèles multimodaux : les modèles plus grands offrent des performances multimodales améliorées, tandis que les versions plus petites permettent des déploiements multimodaux légers et adaptés aux environnements périphériques.
Nous étudions la capacité des modèles de vision et langage (VLMs) à effectuer une prise de perspective visuelle en utilisant un ensemble novateur de tâches visuelles inspirées de tests humains établis. Notre approche exploite des scènes soigneusement contrôlées, dans lesquelles une seule figurine humanoïde est associée à un seul objet. En variant systématiquement les configurations spatiales - telles que la position de l'objet par rapport à la figurine humanoïde et l'orientation de celle-ci - et en utilisant à la fois des vues aériennes et au niveau du sol, nous avons créé 144 tâches visuelles uniques. Chaque tâche visuelle est associée à une série de 7 questions diagnostiques conçues pour évaluer trois niveaux de cognition visuelle : la compréhension de la scène, le raisonnement spatial et la prise de perspective visuelle. Notre évaluation de plusieurs modèles de pointe, incluant GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct et des variantes de Claude Sonnet, révèle que bien qu'ils excellent dans la compréhension de la scène, leur performance décline significativement sur le raisonnement spatial et se détériore davantage sur la prise de perspective. Notre analyse suggère un écart entre la reconnaissance superficielle des objets et le raisonnement spatial et perspectif plus profond requis pour les tâches visuelles complexes, soulignant la nécessité d'intégrer des représentations géométriques explicites et des protocoles d'entraînement adaptés dans le développement futur des VLMs.
Les stratégies de mélange de données ont permis de réduire avec succès les coûts associés à l'entraînement des modèles de langage. Bien que prometteuses, ces méthodes présentent deux défauts majeurs. Premièrement, elles s'appuient sur des domaines de données prédéfinis (par exemple, sources de données, types de tâches), ce qui peut ne pas capturer des nuances sémantiques critiques, laissant ainsi des performances potentielles inexploitées. Deuxièmement, ces méthodes évoluent de manière prohibitive en termes de calcul avec le nombre de domaines. Nous abordons ces défis via R&B, un cadre qui repartitionne les données d'entraînement en fonction de la similarité sémantique (Regroup) pour créer des domaines plus granulaires, et optimise efficacement la composition des données (Balance) en exploitant une matrice de Gram induite par les gradients de domaine obtenus tout au long de l'entraînement. Contrairement aux travaux précédents, il élimine le besoin de calculs supplémentaires pour obtenir des informations d'évaluation telles que les pertes ou les gradients. Nous analysons cette technique sous des conditions de régularité standard et fournissons des insights théoriques qui justifient l'efficacité de R&B par rapport aux approches de mélange non adaptatives. Empiriquement, nous démontrons l'efficacité de R&B sur cinq ensembles de données diversifiés, allant du langage naturel aux tâches de raisonnement et multimodales. Avec seulement 0,01 % de surcharge de calcul supplémentaire, R&B atteint ou dépasse les performances des stratégies de mélange de données les plus avancées.
Les modèles de langage de grande taille (LLMs) montrent un potentiel pour le raisonnement complexe, mais leur capacité à coordonner de manière émergente dans les systèmes multi-agents (MAS) lorsqu'ils opèrent sous des contraintes strictes - telles qu'une perception et une communication locales limitées, caractéristiques des essaims naturels - reste largement inexplorée, en particulier en ce qui concerne les nuances de l'intelligence en essaim. Les benchmarks existants ne capturent souvent pas pleinement les défis uniques de la coordination décentralisée qui surviennent lorsque les agents opèrent avec des informations spatio-temporelles incomplètes. Pour combler cette lacune, nous introduisons SwarmBench, un nouveau benchmark conçu pour évaluer systématiquement les capacités d'intelligence en essaim des LLMs agissant comme agents décentralisés. SwarmBench propose cinq tâches fondamentales de coordination MAS dans un environnement configurable en grille 2D, forçant les agents à s'appuyer principalement sur des entrées sensorielles locales (vue k x k) et une communication locale. Nous proposons des métriques pour l'efficacité de la coordination et analysons les dynamiques de groupe émergentes. En évaluant plusieurs LLMs de pointe dans un cadre zero-shot, nous observons des variations significatives de performance selon les tâches, mettant en évidence les difficultés posées par les contraintes d'information locale. Bien qu'une certaine coordination émerge, les résultats indiquent des limites dans la planification robuste et la formation de stratégies sous incertitude dans ces scénarios décentralisés. Évaluer les LLMs dans des conditions semblables à celles d'un essaim est crucial pour réaliser leur potentiel dans les futurs systèmes décentralisés. Nous publions SwarmBench comme un toolkit ouvert et extensible - construit sur un système physique personnalisable et évolutif avec des propriétés mécaniques définies. Il fournit des environnements, des prompts, des scripts d'évaluation et les ensembles de données expérimentales complets générés, visant à favoriser une recherche reproductible sur la coordination MAS basée sur les LLMs et les fondements théoriques des MAS incarnés. Notre dépôt de code est disponible à l'adresse https://github.com/x66ccff/swarmbench.
En tant que tâche apparemment évidente, la résolution de problèmes constitue un élément fondamental des sciences et de l'ingénierie. Cependant, une formulation générale et concrète de la résolution de problèmes elle-même fait défaut. Avec le développement récent d'agents de résolution de problèmes basés sur l'IA, la demande de vérifiabilité au niveau des processus augmente rapidement, tout en restant insuffisamment explorée. Pour combler ces lacunes, nous proposons une formulation rigoureuse de la résolution de problèmes en tant que processus de décision markovien déterministe ; un nouveau cadre, FPS (Formal Problem-Solving), qui utilise des environnements existants de preuve formelle (FTP) pour réaliser une résolution de problèmes vérifiée au niveau des processus ; et D-FPS (Deductive FPS), qui découple la résolution et la vérification des réponses pour une meilleure alignement avec les humains. L'expressivité, la solidité et la complétude de ces cadres sont démontrées. Nous construisons trois benchmarks pour la résolution de problèmes : FormalMath500, une formalisation d'un sous-ensemble du benchmark MATH500 ; MiniF2F-Solving et PutnamBench-Solving, des adaptations des benchmarks FTP MiniF2F et PutnamBench. Pour une évaluation fidèle, interprétable et alignée avec les humains, nous proposons RPE (Restricted Propositional Equivalence), une approche symbolique pour déterminer la correction des réponses par vérification formelle. Nous évaluons quatre modèles FTP répandus et deux méthodes d'incitation comme références, résolvant au plus 23,77 % de FormalMath500, 27,47 % de MiniF2F-Solving et 0,31 % de PutnamBench-Solving.
La tâche de résolution d'issues GitHub vise à résoudre automatiquement les problèmes signalés dans les dépôts. Avec les avancées des grands modèles de langage (LLM), cette tâche a suscité un intérêt croissant, et plusieurs benchmarks ont été proposés pour évaluer la capacité des LLM à résoudre les issues. Cependant, les benchmarks existants présentent trois limitations principales. Premièrement, les benchmarks actuels se concentrent sur un seul langage de programmation, limitant l'évaluation des issues provenant de dépôts utilisant différents langages. Deuxièmement, ils couvrent généralement un éventail restreint de domaines, ce qui peut ne pas représenter la diversité des problèmes rencontrés dans le monde réel. Troisièmement, les benchmarks existants s'appuient uniquement sur les informations textuelles des descriptions d'issues, négligeant les informations multimodales telles que les images présentes dans les issues. Dans cet article, nous proposons OmniGIRL, un benchmark de résolution d'issues GitHub multilingue, multimodal et multi-domaine. OmniGIRL comprend 959 instances de tâches, collectées à partir de dépôts utilisant quatre langages de programmation (Python, JavaScript, TypeScript et Java) et couvrant huit domaines différents. Notre évaluation montre que les LLM actuels obtiennent des performances limitées sur OmniGIRL. Notamment, le modèle le plus performant, GPT-4o, ne résout que 8,6 % des issues. De plus, nous constatons que les LLM actuels peinent à résoudre les issues nécessitant la compréhension d'images. La meilleure performance est obtenue par Claude-3.5-Sonnet, qui ne résout que 10,5 % des issues contenant des informations visuelles. Enfin, nous analysons les raisons des échecs des LLM actuels sur OmniGIRL, fournissant des pistes pour des améliorations futures.
Les architectures VLA (Vision-Langage-Action) à double système sont devenues un sujet brûlant dans la recherche sur l'intelligence incarnée, mais il manque suffisamment de travaux open source pour une analyse et une optimisation approfondies des performances. Pour résoudre ce problème, cet article résumera et comparera les conceptions structurelles des architectures à double système existantes, et mènera des évaluations empiriques systématiques sur les éléments de conception clés de ces architectures. En fin de compte, il fournira un modèle open source à faible coût pour une exploration ultérieure. Bien sûr, ce projet continuera à s'enrichir avec davantage de conclusions expérimentales et de modèles open source aux performances améliorées, disponibles pour tous. Page du projet : https://openhelix-robot.github.io/.
La résolution de problèmes a été un moteur fondamental du progrès humain dans de nombreux domaines. Avec les avancées de l'intelligence artificielle, les modèles de langage de grande taille (LLMs) sont apparus comme des outils puissants capables de s'attaquer à des problèmes complexes dans divers domaines. Contrairement aux systèmes computationnels traditionnels, les LLMs combinent une puissance de calcul brute avec une approximation du raisonnement humain, leur permettant de générer des solutions, de faire des inférences et même d'utiliser des outils computationnels externes. Cependant, l'application des LLMs à la résolution de problèmes dans le monde réel présente des défis importants, notamment le raisonnement en plusieurs étapes, l'intégration des connaissances spécifiques au domaine et la vérification des résultats. Cette étude explore les capacités et les limites des LLMs dans la résolution de problèmes complexes, en examinant des techniques telles que le raisonnement en chaîne de pensée (Chain-of-Thought, CoT), l'augmentation des connaissances, et diverses techniques de vérification basées sur les LLMs et sur des outils externes. De plus, nous mettons en lumière les défis spécifiques à différents domaines, tels que l'ingénierie logicielle, le raisonnement et la démonstration mathématiques, l'analyse et la modélisation de données, et la recherche scientifique. L'article discute également des limitations fondamentales des solutions actuelles basées sur les LLMs et des directions futures pour la résolution de problèmes complexes à l'aide des LLMs, en se concentrant sur le raisonnement en plusieurs étapes, l'intégration des connaissances spécifiques au domaine et la vérification des résultats.
Dans cet article, nous présentons OSUniverse : un benchmark de tâches complexes et multimodales orientées bureau pour des agents d'IA avancés de navigation d'interface graphique, axé sur la facilité d'utilisation, l'extensibilité, une couverture exhaustive des cas de test et une validation automatisée. Nous divisons les tâches en niveaux de complexité croissants, allant de simples clics de précision à des tests multi-étapes et multi-applications nécessitant dextérité, précision et réflexion claire de la part de l'agent. Dans la première version du benchmark, présentée ici, nous avons calibré la complexité des cas de test pour garantir que les agents à l'état de l'art (SOTA, State of the Art) au moment de la publication n'obtiennent pas de résultats supérieurs à 50 %, tandis qu'un travailleur de bureau moyen peut accomplir toutes ces tâches avec une précision parfaite. Le benchmark peut être évalué manuellement, mais nous introduisons également un mécanisme de validation automatisée dont le taux d'erreur moyen est inférieur à 2 %. Ainsi, ce benchmark offre une base solide pour une mesure entièrement automatisée des progrès, des capacités et de l'efficacité des agents d'IA de navigation d'interface graphique à court et moyen terme. Le code source du benchmark est disponible à l'adresse suivante : https://github.com/agentsea/osuniverse.
Les agents sont principalement évalués et optimisés via des métriques de réussite de tâches, qui sont grossières, reposent sur une conception manuelle par des experts, et ne récompensent pas les comportements émergents intermédiaires. Nous proposons AutoLibra, un cadre d'évaluation des agents, qui transforme les retours ouverts des humains, par exemple "Si vous constatez que le bouton est désactivé, ne cliquez pas à nouveau", ou "Cet agent a trop d'autonomie pour décider seul de ce qu'il doit faire", en métriques pour évaluer les comportements fins dans les trajectoires des agents. AutoLibra y parvient en ancrant les retours au comportement de l'agent, en regroupant les comportements positifs et négatifs similaires, et en créant des métriques concrètes avec des définitions claires et des exemples précis, qui peuvent être utilisées pour solliciter un LLM-as-a-Judge en tant qu'évaluateur. Nous proposons en outre deux méta-métriques pour évaluer l'alignement d'un ensemble de métriques (induites) avec les retours ouverts : "couverture" et "redondance". En optimisant ces méta-métriques, nous démontrons expérimentalement la capacité d'AutoLibra à induire des métriques d'évaluation des agents plus concrètes que celles proposées dans les benchmarks d'évaluation d'agents précédents, et à découvrir de nouvelles métriques pour analyser les agents. Nous présentons également deux applications d'AutoLibra dans l'amélioration des agents : Premièrement, nous montrons que les métriques induites par AutoLibra servent de meilleures cibles pour l'ingénierie des prompts que le taux de réussite des tâches sur une large gamme de jeux textuels, améliorant les performances des agents par rapport à la ligne de base d'une moyenne de 20%. Deuxièmement, nous montrons qu'AutoLibra peut sélectionner itérativement des données de fine-tuning de haute qualité pour les agents de navigation web. Nos résultats suggèrent qu'AutoLibra est un outil puissant et indépendant de la tâche pour évaluer et améliorer les agents linguistiques.
La plupart des détecteurs d'anomalies vidéo existants reposent uniquement sur des images RVB, qui manquent de résolution temporelle nécessaire pour capturer des indices de mouvement brusques ou transitoires, des indicateurs clés d'événements anormaux. Pour pallier cette limitation, nous proposons Image-Event Fusion for Video Anomaly Detection (IEF-VAD), un cadre qui synthétise des représentations d'événements directement à partir de vidéos RVB et les fusionne avec des caractéristiques d'images via un processus rigoureux et conscient de l'incertitude. Le système (i) modélise le bruit de capteur à queue lourde avec une vraisemblance de Student, dérivant des poids d'inverse-variance au niveau des valeurs via une approximation de Laplace ; (ii) applique des mises à jour image par image de type Kalman pour équilibrer les modalités dans le temps ; et (iii) affine itérativement l'état latent fusionné pour éliminer le bruit résiduel inter-modal. Sans aucun capteur d'événements dédié ni étiquettes au niveau des images, IEF-VAD établit un nouvel état de l'art sur plusieurs benchmarks de détection d'anomalies du monde réel. Ces résultats mettent en lumière l'utilité des représentations d'événements synthétiques pour mettre en avant des indices de mouvement souvent sous-représentés dans les images RVB, permettant une compréhension vidéo précise et robuste dans diverses applications sans nécessiter de capteurs d'événements dédiés. Le code et les modèles sont disponibles à l'adresse https://github.com/EavnJeong/IEF-VAD.
Les grands modèles de langage (LLM) atteignent des performances remarquables sur de nombreuses tâches en utilisant une diversité de stratégies d'adaptation. Cependant, sélectionner de manière optimale un modèle et une stratégie d'adaptation sous contraintes de ressources est un défi qui nécessite souvent une expérimentation extensive. Nous étudions s'il est possible de prédire avec précision à la fois les performances et les coûts sans recourir à des essais coûteux. Nous formalisons le problème de sélection de stratégie pour les LLM et introduisons COSMOS, un cadre de prédiction unifié qui estime efficacement les résultats d'adaptation à un coût minimal. Nous instancions et étudions les capacités de notre cadre via une paire de prédicteurs puissants : des modèles proxy légers augmentés par des embeddings pour prédire les performances de fine-tuning, et des lois d'échantillonnage à faible échantillon pour prévoir l'apprentissage en contexte augmenté par récupération. Une évaluation approfondie sur huit benchmarks représentatifs démontre que COSMOS atteint une grande précision de prédiction tout en réduisant les coûts de calcul de 92,72 % en moyenne, et jusqu'à 98,71 % dans des scénarios intensifs en ressources. Nos résultats montrent que la prédiction efficace des résultats d'adaptation est non seulement réalisable, mais peut substantiellement réduire la surcharge computationnelle du déploiement des LLM tout en maintenant les standards de performance.
L'apprentissage semi-supervisé est devenu une approche convaincante pour la segmentation 3D des dents à partir de scans CBCT, où les données annotées sont minimales. Cependant, les méthodes existantes continuent de faire face à deux défis persistants : une supervision corrective limitée dans les régions structurellement ambiguës ou mal annotées pendant l'entraînement supervisé, et une dégradation des performances causée par des pseudo-labels peu fiables sur les données non annotées. Pour résoudre ces problèmes, nous proposons Region-Aware Instructive Learning (RAIL), un cadre semi-supervisé à double groupe et double étudiant. Chaque groupe contient deux modèles étudiants guidés par un réseau enseignant partagé. En alternant l'entraînement entre les deux groupes, RAIL favorise le transfert de connaissances intergroupe et une instruction collaborative sensible aux régions, tout en réduisant le surajustement aux caractéristiques d'un seul modèle. Plus précisément, RAIL introduit deux mécanismes instructifs. Le Contrôleur de Supervision Centrée sur les Désaccords (DFS) améliore l'apprentissage supervisé en guidant les prédictions uniquement dans les zones où les sorties des étudiants divergent à la fois de la vérité terrain et du meilleur étudiant, concentrant ainsi la supervision sur les zones structurellement ambiguës ou mal annotées. Dans la phase non supervisée, le Modulateur d'Apprentissage Conscient de la Confiance (CAL) renforce l'accord dans les régions où la certitude du modèle est élevée, tout en réduisant l'effet des prédictions de faible confiance pendant l'entraînement. Cela aide à empêcher notre modèle d'apprendre des motifs instables et améliore la fiabilité globale des pseudo-labels. Des expériences approfondies sur quatre ensembles de données de segmentation dentaire CBCT montrent que RAIL surpasse les méthodes de pointe dans des conditions d'annotation limitée. Notre code sera disponible à l'adresse https://github.com/Tournesol-Saturday/RAIL.
La création de connaissances scientifiques est en pleine transformation fondamentale alors que les humains et les systèmes d'IA évoluent au-delà des relations outil-utilisateur pour devenir des partenariats épistémiques co-évolutifs. Lorsqu'AlphaFold a révolutionné la prédiction de la structure des protéines, les chercheurs ont décrit une collaboration avec un partenaire épistémique qui a redéfini leur manière de conceptualiser les relations fondamentales. Cet article présente Cognitio Emergens (CE), un cadre qui aborde les limites critiques des modèles existants, lesquels se concentrent sur des rôles statiques ou des métriques étroites sans parvenir à capturer comment la compréhension scientifique émerge à travers des interactions récursives entre humains et IA sur le temps long. CE intègre trois composantes pour surmonter ces limites : les Configurations d'Agence décrivant la répartition de l'autorité entre humains et IA (Dirigée, Contributive, Partenariat), avec des partenariats oscillant dynamiquement entre ces configurations plutôt que de suivre une progression linéaire ; les Dimensions Épistémiques capturant six capacités spécifiques émergeant de la collaboration selon les axes Découverte, Intégration et Projection, créant des "signatures de capacités" distinctives qui guident le développement ; et les Dynamiques de Partenariat identifiant les forces qui façonnent l'évolution de ces relations, notamment le risque d'aliénation épistémique où les chercheurs perdent le contrôle interprétatif sur les connaissances qu'ils endossent formellement. S'inspirant de la théorie de l'autopoïèse, de la théorie des systèmes sociaux et de la modularité organisationnelle, CE révèle comment la co-création de connaissances émerge à travers une négociation continue des rôles, des valeurs et des structures organisationnelles. En reconceptualisant la collaboration scientifique humain-IA comme fondamentalement co-évolutive, CE offre une perspective équilibrée qui ne célèbre pas de manière acritique ni ne craint inutilement le rôle évolutif de l'IA, mais fournit plutôt des outils conceptuels pour cultiver des partenariats qui maintiennent une participation humaine significative tout en permettant des avancées scientifiques transformatrices.