Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLMs) excellent en raisonnement, mais le post-entraînement reste crucial pour aligner leur comportement avec les objectifs des tâches. Les méthodes existantes d'apprentissage par renforcement (RL) dépendent souvent d'annotations humaines coûteuses ou de modèles de récompense externes. Nous proposons l'Apprentissage par Renforcement via la Confiance en Soi (RLSC), qui utilise la confiance propre du modèle comme signaux de récompense, éliminant ainsi le besoin d'étiquettes, de modèles de préférence ou d'ingénierie de récompense. Appliqué à Qwen2.5-Math-7B avec seulement 16 échantillons par question et 10 ou 20 étapes d'entraînement, RLSC améliore la précision de +13,4 % sur AIME2024, +21,2 % sur MATH500, +21,7 % sur Minerva Math, +20,8 % sur Olympiadbench et +9,7 % sur AMC23. RLSC offre une méthode de post-entraînement simple et évolutive pour les modèles d'inférence, nécessitant seulement un petit nombre d'échantillons et une supervision non étiquetée.
Les avancées notables dans la modélisation de la diffusion ont permis des améliorations rapides dans la génération de vidéos. Cependant, les modèles fondateurs actuels continuent de faire face à des défis critiques pour équilibrer simultanément la conformité aux instructions, la plausibilité du mouvement et la qualité visuelle. Dans ce rapport, nous présentons Seedance 1.0, un modèle fondateur de génération vidéo performant et efficace en inférence, qui intègre plusieurs améliorations techniques clés : (i) une curation de données multi-sources enrichie par un sous-titrage vidéo précis et significatif, permettant un apprentissage complet dans divers scénarios ; (ii) une conception architecturale efficace avec un paradigme d'entraînement proposé, qui permet de prendre en charge nativement la génération multi-prises et l'apprentissage conjoint des tâches de texte-à-vidéo et d'image-à-vidéo ; (iii) des approches post-entraînement soigneusement optimisées exploitant un réglage fin supervisé granulaire et un RLHF spécifique à la vidéo avec des mécanismes de récompense multidimensionnels pour des améliorations globales des performances ; (iv) une accélération exceptionnelle du modèle atteignant une accélération d'inférence d'environ 10x grâce à des stratégies de distillation multi-étapes et des optimisations au niveau système. Seedance 1.0 peut générer une vidéo de 5 secondes en résolution 1080p en seulement 41,4 secondes (NVIDIA-L20). Par rapport aux modèles de génération vidéo de pointe, Seedance 1.0 se distingue par une génération vidéo de haute qualité et rapide, offrant une fluidité spatio-temporelle supérieure avec une stabilité structurelle, une adhérence précise aux instructions dans des contextes complexes à plusieurs sujets, et une cohérence narrative multi-prises native avec une représentation cohérente des sujets.
Les modèles de génération vidéo à grande échelle existants sont intensifs en calcul, ce qui empêche leur adoption dans des applications en temps réel et interactives. Dans ce travail, nous proposons un post-entraînement adversariel autorégressif (AAPT) pour transformer un modèle de diffusion vidéo latente pré-entraîné en un générateur vidéo en temps réel et interactif. Notre modèle génère de manière autorégressive une image latente à la fois en utilisant une seule évaluation de fonction neuronale (1NFE). Le modèle peut diffuser le résultat à l'utilisateur en temps réel et recevoir des réponses interactives comme contrôles pour générer l'image latente suivante. Contrairement aux approches existantes, notre méthode explore l'entraînement adversariel comme un paradigme efficace pour la génération autorégressive. Cela nous permet non seulement de concevoir une architecture plus efficace pour la génération en une étape tout en exploitant pleinement le cache KV, mais aussi d'entraîner le modèle de manière à forcer l'étudiant, ce qui s'avère efficace pour réduire l'accumulation d'erreurs lors de la génération de vidéos longues. Nos expériences montrent que notre modèle de 8 milliards de paramètres atteint une génération vidéo en flux continu en temps réel à 24 images par seconde, avec une résolution de 736x416 sur un seul H100, ou 1280x720 sur 8xH100, jusqu'à une minute de durée (1440 images). Visitez notre site de recherche à l'adresse https://seaweed-apt.com/2.
Les modèles de langage autoregressifs à grande échelle (AR-LLMs) présentent fréquemment un parallélisme implicite dans la génération séquentielle. Inspirés par cela, nous introduisons Multiverse, un nouveau modèle génératif permettant une génération parallèle native. Multiverse internalise un paradigme MapReduce, générant automatiquement en trois étapes : (i) une étape Map pour la décomposition adaptative des tâches, (ii) une étape Process pour l'exécution parallèle des sous-tâches, et (iii) une étape Reduce pour la synthèse sans perte des résultats. Ensuite, nous construisons un modèle de raisonnement Multiverse dans le monde réel avec une co-conception des données, de l'algorithme et du système, permettant un transfert rapide et fluide depuis les AR-LLMs de pointe. Partant de chaînes de raisonnement séquentielles, nous créons Multiverse 1K en les convertissant en données d'entraînement structurées à l'aide d'un pipeline automatisé assisté par LLM, évitant ainsi les annotations humaines coûteuses. Sur le plan algorithmique, nous concevons Multiverse Attention pour séparer les étapes de raisonnement parallèles tout en maintenant la compatibilité avec l'attention causale pour un entraînement efficace. Systématiquement, nous implémentons Multiverse Engine pour permettre une inférence parallèle. Il dispose d'un planificateur dédié qui bascule dynamiquement entre la génération séquentielle et parallèle, déclenché directement par le modèle. Après un fine-tuning de 3 heures avec 1 000 exemples, notre Multiverse-32B se positionne comme le seul modèle non-AR open-source atteignant des performances comparables aux AR-LLMs leaders de la même échelle, comme en témoignent les scores AIME24 et 25 de 54 % et 46 %, respectivement. De plus, nos expériences de contrôle budgétaire montrent que Multiverse-32B présente une mise à l'échelle supérieure, surpassant les AR-LLMs de 1,87 % en moyenne avec la même longueur de contexte. Une telle mise à l'échelle conduit également à un gain d'efficacité pratique, atteignant jusqu'à 2x d'accélération pour différentes tailles de lots. Nous avons open-sourcé l'écosystème Multiverse entier, incluant les données, les poids du modèle, le moteur, les outils de support, ainsi que les prompts complets de curation des données et les recettes détaillées d'entraînement et d'évaluation.
Le contenu généré par l'IA a évolué de modèles monolithiques vers des flux de travail modulaires, en particulier sur des plateformes comme ComfyUI, permettant une personnalisation des pipelines créatifs. Cependant, la conception de flux de travail efficaces nécessite une expertise considérable pour orchestrer de nombreux composants spécialisés, ce qui représente une courbe d'apprentissage abrupte pour les utilisateurs. Pour relever ce défi, nous présentons ComfyUI-R1, le premier modèle de raisonnement à grande échelle pour la génération automatisée de flux de travail. En partant de notre jeu de données soigneusement sélectionné de 4 000 flux de travail, nous construisons des données de raisonnement en chaîne de pensée (CoT) étendues, incluant la sélection de nœuds, la planification des flux de travail et la représentation des flux de travail au niveau du code. ComfyUI-R1 est entraîné via un cadre en deux étapes : (1) un ajustement fin CoT pour un démarrage à froid, adaptant les modèles au domaine ComfyUI ; (2) un apprentissage par renforcement pour encourager la capacité de raisonnement, guidé par une récompense hybride basée sur des règles et des métriques fines, garantissant la validité du format, l'intégrité structurelle et la fidélité au niveau des nœuds. Les expériences montrent que notre modèle à 7 milliards de paramètres atteint un taux de validité de format de 97 %, ainsi que des taux de réussite élevés, des scores F1 au niveau des nœuds et des graphes, surpassant significativement les méthodes antérieures de pointe qui utilisent des modèles propriétaires leaders tels que GPT-4o et la série Claude. Une analyse approfondie met en lumière le rôle crucial du processus de raisonnement et l'avantage de transformer les flux de travail en code. Une comparaison qualitative révèle notre force dans la synthèse de flux de travail complexes avec des nœuds diversifiés, soulignant le potentiel du raisonnement CoT étendu dans la création artistique par IA.
Nous présentons PlayerOne, le premier simulateur réaliste de monde égocentrique, facilitant une exploration immersive et sans restriction au sein d’environnements dynamiques et vivants. À partir d’une image de scène égocentrique fournie par l’utilisateur, PlayerOne peut construire avec précision le monde correspondant et générer des vidéos égocentriques strictement alignées avec les mouvements humains réels de l’utilisateur capturés par une caméra exocentrique. PlayerOne est entraîné selon une approche allant du grossier au fin, commençant par un pré-entraînement sur des paires texte-vidéo égocentriques à grande échelle pour une compréhension grossière de la perspective égocentrique, suivi d’un affinage sur des données synchronisées de mouvement-vidéo extraites de jeux de données vidéo égocentriques-exocentriques grâce à notre pipeline de construction automatique. Par ailleurs, tenant compte de l’importance variable des différents composants, nous concevons un schéma d’injection de mouvement désentrelacé par parties, permettant un contrôle précis des mouvements au niveau des segments. De plus, nous élaborons un cadre de reconstruction conjointe qui modélise progressivement à la fois la scène 4D et les images vidéo, garantissant la cohérence de la scène dans la génération de vidéos longues. Les résultats expérimentaux démontrent sa grande capacité de généralisation dans le contrôle précis de divers mouvements humains et la modélisation cohérente de scénarios variés. Cette initiative marque la première tentative de simulation réaliste du monde égocentrique et peut ouvrir la voie à la communauté pour explorer de nouvelles frontières dans la modélisation du monde et ses applications diversifiées.
Les récents progrès dans la génération de musique à partir de texte ont permis aux modèles de synthétiser des segments musicaux de haute qualité, des compositions complètes, et même de répondre à des signaux de contrôle précis, comme des progressions d'accords. Les systèmes à l'état de l'art (SOTA) diffèrent considérablement sur de nombreux aspects, tels que les ensembles de données d'entraînement, les paradigmes de modélisation et les choix architecturaux. Cette diversité complique les efforts pour évaluer les modèles de manière équitable et identifier les choix de conception qui influencent le plus les performances. Bien que des facteurs comme les données et l'architecture soient importants, dans cette étude, nous nous concentrons exclusivement sur le paradigme de modélisation. Nous menons une analyse empirique systématique pour isoler ses effets, offrant des insights sur les compromis associés et les comportements émergents qui peuvent guider les futurs systèmes de génération de musique à partir de texte. Plus précisément, nous comparons les deux paradigmes de modélisation les plus courants : le décodage auto-régressif et le Conditional Flow-Matching. Nous effectuons une comparaison contrôlée en entraînant tous les modèles à partir de zéro en utilisant des ensembles de données identiques, des configurations d'entraînement similaires et des architectures de base comparables. Les performances sont évaluées sur plusieurs axes, incluant la qualité de la génération, la robustesse aux configurations d'inférence, l'évolutivité, l'adhésion aux conditionnements textuels et temporellement alignés, et les capacités d'édition sous forme de réparation audio. Cette étude comparative met en lumière les forces et les limites distinctes de chaque paradigme, fournissant des insights exploitables qui peuvent éclairer les futures décisions architecturales et d'entraînement dans le paysage en évolution de la génération de musique à partir de texte. Des exemples audio sont disponibles à l'adresse suivante : https://huggingface.co/spaces/ortal1602/ARvsFM
Nous présentons SeerAttention-R, un cadre d'attention parcimonieuse spécialement conçu pour le décodage long des modèles de raisonnement. Développé à partir de SeerAttention, SeerAttention-R conserve la conception d'apprentissage de la parcimonie de l'attention via un mécanisme de gating auto-distillé, tout en supprimant le pooling des requêtes pour s'adapter au décodage auto-régressif. Avec un mécanisme de gating léger et modulaire, SeerAttention-R est flexible et peut être facilement intégré à des modèles pré-entraînés existants sans modifier les paramètres originaux. Nous démontrons que SeerAttention-R, entraîné sur seulement 0,4 milliard de tokens, maintient une précision de raisonnement quasi sans perte avec un budget de 4K tokens dans le benchmark AIME, même avec de grandes tailles de blocs d'attention parcimonieuse (64/128). En utilisant TileLang, nous avons développé un noyau de décodage parcimonieux hautement optimisé qui atteint des accélérations proches des limites théoriques, jusqu'à 9x par rapport à FlashAttention-3 sur un GPU H100 avec une parcimonie de 90%. Le code est disponible à l'adresse suivante : https://github.com/microsoft/SeerAttention.
Les modèles de langage de grande taille (LLMs) sont désormais intégrés dans divers domaines et ont démontré des performances impressionnantes. Cependant, les progrès reposent sur l'hypothèse que les scores de référence sont à la fois précis et reproductibles. Nous montrons que la reproductibilité des performances des LLMs est fragile : modifier la configuration du système, telle que la taille du lot d'évaluation, le nombre de GPU et la version du GPU, peut introduire des différences significatives dans les réponses générées. Ce problème est particulièrement prononcé dans les modèles de raisonnement, où de légères différences d'arrondi dans les premiers tokens peuvent se propager en chaînes de pensée divergentes, affectant finalement la précision. Par exemple, sous une précision bfloat16 avec un décodage gourmand, un modèle de raisonnement comme DeepSeek-R1-Distill-Qwen-7B peut présenter jusqu'à 9 % de variation en précision et une différence de 9 000 tokens dans la longueur de la réponse en raison des différences dans le nombre de GPU, le type de GPU et la taille du lot d'évaluation. Nous attribuons la cause fondamentale de cette variabilité à la nature non associative de l'arithmétique en virgule flottante sous une précision numérique limitée. Ce travail présente la première investigation systématique sur la manière dont la précision numérique affecte la reproductibilité dans l'inférence des LLMs. Grâce à des expériences soigneusement contrôlées sur divers matériels, logiciels et paramètres de précision, nous quantifions quand et comment les sorties du modèle divergent. Notre analyse révèle que la précision en virgule flottante — bien que cruciale pour la reproductibilité — est souvent négligée dans les pratiques d'évaluation. Inspirés par cela, nous développons un pipeline d'inférence léger, appelé LayerCast, qui stocke les poids en précision 16 bits mais effectue tous les calculs en FP32, équilibrant ainsi l'efficacité mémoire avec la stabilité numérique. Le code est disponible à l'adresse https://github.com/nanomaoli/llm_reproducibility.
Nous présentons **SWE-Flow**, un nouveau cadre de synthèse de données basé sur le développement piloté par les tests (Test-Driven Development, TDD). Contrairement aux données existantes en ingénierie logicielle qui s'appuient sur des problèmes soumis par des humains, **SWE-Flow** infère automatiquement des étapes de développement incrémentales directement à partir des tests unitaires, qui encapsulent intrinsèquement des exigences de haut niveau. Le cœur de **SWE-Flow** repose sur la construction d'un graphe de dépendances d'exécution (Runtime Dependency Graph, RDG), qui capture précisément les interactions entre les fonctions, permettant ainsi la génération d'un *calendrier de développement* structuré étape par étape. À chaque étape, **SWE-Flow** produit une base de code partielle, les tests unitaires correspondants et les modifications de code nécessaires, aboutissant à des tâches TDD entièrement vérifiables. Avec cette approche, nous avons généré 16 061 instances d'entraînement et 2 020 instances de test à partir de projets GitHub réels, créant ainsi le benchmark **SWE-Flow-Eval**. Nos expériences montrent que l'affinage de modèles ouverts sur cet ensemble de données améliore significativement les performances dans le codage basé sur le TDD. Pour faciliter les recherches ultérieures, nous publions l'intégralité du code, des ensembles de données, des modèles et des images Docker sur [Github](https://github.com/Hambaobao/SWE-Flow).
Les grands modèles de raisonnement (Large Reasoning Models, LRMs) tels que o1 et DeepSeek-R1 ont montré des progrès remarquables dans le raisonnement en langage naturel avec des chaînes de pensée (Chain-of-Thought, CoT) longues, mais ils restent inefficaces ou imprécis lorsqu'il s'agit de traiter des opérations mathématiques complexes. Aborder ces limitations à l'aide d'outils de calcul (par exemple, des bibliothèques de calcul et des solveurs symboliques) est prometteur, mais cela introduit un défi technique : l'interpréteur de code (Code Interpreter, CI) apporte des connaissances externes au-delà des représentations textuelles internes du modèle, ce qui rend la combinaison directe inefficace. Cet article présente CoRT, un cadre de post-formation pour enseigner aux LRMs à exploiter efficacement et de manière optimale le CI. Dans un premier temps, nous abordons le problème de la rareté des données en synthétisant des données de raisonnement intégrant du code via l'ingénierie d'indices (Hint-Engineering), qui insère stratégiquement différents indices à des positions appropriées pour optimiser l'interaction LRM-CI. Nous créons manuellement 30 échantillons de haute qualité, sur lesquels nous post-formons des modèles allant de 1,5 milliard à 32 milliards de paramètres, en utilisant un réglage fin supervisé, un réglage fin par rejet et un apprentissage par renforcement. Nos résultats expérimentaux montrent que les modèles basés sur l'ingénierie d'indices obtiennent des améliorations absolues de 4 % et 8 % respectivement sur DeepSeek-R1-Distill-Qwen-32B et DeepSeek-R1-Distill-Qwen-1.5B, sur cinq ensembles de données de raisonnement mathématique complexes. De plus, les modèles basés sur l'ingénierie d'indices utilisent environ 30 % de tokens en moins pour le modèle de 32 milliards et 50 % de tokens en moins pour le modèle de 1,5 milliard par rapport aux modèles de langage naturel. Les modèles et le code sont disponibles à l'adresse https://github.com/ChengpengLi1003/CoRT.
L'animation humaine de bout en bout avec des conditions multimodales riches, telles que le texte, l'image et l'audio, a connu des avancées remarquables ces dernières années. Cependant, la plupart des méthodes existantes ne peuvent animer qu'un seul sujet et injectent les conditions de manière globale, ignorant les scénarios où plusieurs concepts peuvent apparaître dans la même vidéo avec des interactions riches entre humains et entre humains et objets. Cette hypothèse globale empêche un contrôle précis et par identité de multiples concepts, incluant les humains et les objets, limitant ainsi les applications. Dans ce travail, nous abandonnons l'hypothèse d'une seule entité et introduisons un nouveau cadre qui impose un lien fort et spécifique à une région entre les conditions des modalités et l'empreinte spatio-temporelle de chaque identité. Étant donné des images de référence de plusieurs concepts, notre méthode peut inférer automatiquement les informations de disposition en exploitant un prédicteur de masque pour faire correspondre les indices d'apparence entre la vidéo débruitée et chaque apparence de référence. De plus, nous injectons une condition audio locale dans sa région correspondante pour assurer une correspondance des modalités alignée sur la disposition de manière itérative. Cette conception permet la génération de haute qualité de vidéos centrées sur l'humain et contrôlables avec plusieurs concepts. Les résultats empiriques et les études d'ablation valident l'efficacité de notre contrôle explicite de la disposition pour les conditions multimodales par rapport aux contreparties implicites et autres méthodes existantes.
Les LLM (modèles de langage de grande taille) sont principalement utilisés dans des communications synchrones, où un utilisateur humain et un modèle interagissent en alternant les tours de parole. En revanche, de nombreux contextes réels sont intrinsèquement asynchrones. Par exemple, dans les discussions de groupe, les réunions d'équipe en ligne ou les jeux sociaux, il n'existe pas de notion inhérente de tours de parole ; par conséquent, la décision de quand intervenir constitue une part cruciale du processus décisionnel des participants. Dans ce travail, nous développons un agent LLM asynchrone adaptatif qui, en plus de déterminer quoi dire, décide également quand le dire. Pour évaluer notre agent, nous collectons un ensemble de données unique provenant de parties en ligne du jeu Mafia, incluant à la fois des participants humains et notre agent asynchrone. Globalement, notre agent performe au même niveau que les joueurs humains, tant en termes de performance dans le jeu que dans sa capacité à s'intégrer parmi les autres joueurs humains. Notre analyse montre que le comportement de l'agent pour décider quand intervenir reflète étroitement les schémas humains, bien que des différences émergent dans le contenu des messages. Nous publions toutes nos données et notre code pour soutenir et encourager des recherches supplémentaires visant à des communications asynchrones plus réalistes entre agents LLM. Ce travail ouvre la voie à l'intégration des LLM dans des contextes de groupe humains réalistes, allant de l'assistance dans les discussions d'équipe aux environnements éducatifs et professionnels où des dynamiques sociales complexes doivent être naviguées.
Malgré les progrès rapides des modèles de langage multimodaux de grande taille (MLLMs), ceux-ci ont largement négligé l'importance du traitement visuel. Dans une expérience simple mais révélatrice, nous constatons de manière intéressante que les modèles basés uniquement sur le langage, lorsqu'ils sont fournis avec des légendes d'images, peuvent atteindre des performances comparables, voire supérieures, à celles des MLLMs qui consomment des entrées visuelles brutes. Cela suggère que les MLLMs actuels peuvent générer des descriptions visuelles précises mais échouent à les intégrer efficacement lors du raisonnement. Motivés par cette observation, nous proposons un cadre simple de perturbation visuelle qui améliore la robustesse perceptuelle sans nécessiter de modifications algorithmiques ou de données d'entraînement supplémentaires. Notre approche introduit trois perturbations ciblées : la concaténation de distracteurs, le mixup préservant la dominance et la rotation aléatoire, qui peuvent être facilement intégrées dans les pipelines post-entraînement existants, y compris SFT, DPO et GRPO. À travers des expériences approfondies sur plusieurs ensembles de données, nous démontrons des améliorations constantes dans les performances de raisonnement mathématique, avec des gains comparables à ceux obtenus par des changements algorithmiques. De plus, nous obtenons des performances compétitives parmi les modèles open-source de 7B ajustés par renforcement en entraînant Qwen2.5-VL-7B avec perturbation visuelle. Grâce à des études d'ablation complètes, nous analysons l'efficacité des différentes stratégies de perturbation, révélant que chaque type de perturbation contribue de manière unique à différents aspects du raisonnement visuel. Nos résultats mettent en évidence le rôle crucial de la perturbation visuelle dans le raisonnement mathématique multimodal : un meilleur raisonnement commence par une meilleure vision. Notre code est disponible à l'adresse https://github.com/YutingLi0606/Vision-Matters.
Bien que les modèles vision-langage-action (VLA) aient démontré des comportements robotiques prometteurs dans un ensemble diversifié de tâches de manipulation, ils obtiennent des taux de succès limités lorsqu'ils sont déployés sur des tâches nouvelles sans adaptation préalable. Pour permettre à ces politiques d'interagir en toute sécurité avec leur environnement, nous avons besoin d'un détecteur de défaillance qui fournit une alerte en temps opportun afin que le robot puisse s'arrêter, revenir en arrière ou demander de l'aide. Cependant, les détecteurs de défaillance existants sont entraînés et testés uniquement sur une ou quelques tâches spécifiques, tandis que les VLA nécessitent que le détecteur généralise et identifie les défaillances également dans des tâches inédites et des environnements nouveaux. Dans cet article, nous introduisons le problème de la détection de défaillance multitâche et proposons SAFE, un détecteur de défaillance pour les politiques robotiques généralistes telles que les VLA. Nous analysons l'espace de caractéristiques des VLA et constatons que ces derniers possèdent une connaissance de haut niveau suffisante sur la réussite et l'échec des tâches, qui est générique pour différentes tâches. Sur la base de cette observation, nous concevons SAFE pour apprendre à partir des caractéristiques internes des VLA et prédire un scalaire unique indiquant la probabilité d'échec de la tâche. SAFE est entraîné sur des déploiements réussis et échoués, et est évalué sur des tâches inédites. SAFE est compatible avec différentes architectures de politiques. Nous le testons sur OpenVLA, pi_0 et pi_0-FAST dans des environnements simulés et réels de manière extensive. Nous comparons SAFE avec diverses méthodes de référence et montrons que SAFE atteint des performances de détection de défaillance de pointe et le meilleur compromis entre précision et temps de détection en utilisant la prédiction conforme. Plus de résultats qualitatifs sont disponibles à l'adresse https://vla-safe.github.io/.
Le langage offre une interface naturelle pour spécifier et évaluer les performances sur des tâches visuelles. Pour concrétiser cette possibilité, les modèles de langage visuel (VLMs) doivent intégrer avec succès les informations visuelles et linguistiques. Notre travail compare les VLMs à une lecture directe de leurs encodeurs visuels afin de comprendre leur capacité à intégrer ces modalités. À travers une série de benchmarks centrés sur la vision (par exemple, l'estimation de la profondeur, la correspondance), nous constatons que les VLMs performent nettement moins bien que leurs encodeurs visuels, atteignant des performances proches du hasard. Nous examinons ces résultats à travers une série d'analyses portant sur l'ensemble du VLM, à savoir : 1) la dégradation des représentations visuelles, 2) la fragilité face aux invites de tâches, et 3) le rôle du modèle de langage dans la résolution de la tâche. Nous constatons que le goulot d'étranglement dans l'exécution de ces tâches centrées sur la vision réside dans cette troisième catégorie ; les VLMs n'utilisent pas efficacement les informations visuelles facilement accessibles à travers l'ensemble du modèle, et ils héritent des préjugés linguistiques présents dans le LLM. Notre travail contribue à diagnostiquer les modes de défaillance des VLMs open-source et présente une série d'évaluations utiles pour les futures recherches sur la compréhension visuelle au sein des VLMs.
Les récents progrès dans la génération d'objets 3D ont considérablement amélioré à la fois la qualité et l'efficacité. Cependant, la plupart des méthodes existantes génèrent un seul maillage avec toutes les parties fusionnées, ce qui limite la capacité à éditer ou manipuler des parties individuelles. Un défi majeur réside dans le fait que différents objets peuvent avoir un nombre variable de parties. Pour résoudre ce problème, nous proposons un nouveau cadre de travail de bout en bout pour la génération d'objets 3D au niveau des parties. À partir d'une seule image en entrée, notre méthode génère des objets 3D de haute qualité avec un nombre arbitraire de parties complètes et sémantiquement significatives. Nous introduisons une stratégie de double volume d'emballage qui organise toutes les parties dans deux volumes complémentaires, permettant la création de parties complètes et entrelacées qui s'assemblent pour former l'objet final. Les expériences montrent que notre modèle atteint une meilleure qualité, diversité et généralisation que les méthodes précédentes de génération au niveau des parties basées sur des images.
La correspondance dense d'images est essentielle pour de nombreuses applications, telles que l'odométrie visuelle, la reconstruction 3D, l'association d'objets et la ré-identification. Historiquement, la correspondance dense a été abordée séparément pour les scénarios à large base et l'estimation du flux optique, malgré l'objectif commun de faire correspondre le contenu entre deux images. Dans cet article, nous développons un modèle unifié de flux et de correspondance (UFM), qui est entraîné sur des données unifiées pour les pixels co-visibles dans les images source et cible. UFM utilise une architecture de transformateur simple et générique qui régresse directement le flux (u,v). Il est plus facile à entraîner et plus précis pour les grands flux par rapport aux volumes de coûts grossiers à fins typiques des travaux précédents. UFM est 28 % plus précis que les méthodes de flux de pointe (Unimatch), tout en ayant 62 % d'erreur en moins et 6,7 fois plus rapide que les méthodes de correspondance dense à large base (RoMa). UFM est le premier à démontrer qu'un entraînement unifié peut surpasser les approches spécialisées dans les deux domaines. Ce résultat permet une correspondance rapide et polyvalente et ouvre de nouvelles directions pour les tâches de correspondance multi-modale, à longue portée et en temps réel.
L'inférence référentielle du regard - la capacité à déduire ce que les autres regardent - est une composante essentielle d'une théorie de l'esprit qui sous-tend l'interaction naturelle entre humains et IA. Dans une étude contrôlée, nous avons évalué cette compétence auprès de 111 modèles de vision et langage (VLMs) en utilisant des photos présentant des niveaux de difficulté et de variabilité manipulés, comparant leurs performances à celles de participants humains (N = 65), et analysé les comportements à l'aide de modèles à effets mixtes. Nous avons constaté que 94 des 111 VLMs n'ont pas fait mieux qu'un choix aléatoire, tandis que les humains ont atteint une précision quasi maximale. Les VLMs répondent même avec une fréquence presque égale pour chaque choix. Devineraient-ils au hasard ? Bien que la plupart des VLMs rencontrent des difficultés, en nous concentrant sur cinq des VLMs de premier plan ayant une performance supérieure au hasard, nous observons que leur performance décline avec l'augmentation de la difficulté de la tâche mais varie peu selon les différents prompts et objets de la scène. Ces caractéristiques comportementales ne peuvent s'expliquer en les considérant comme des devineurs aléatoires. Au lieu de cela, ils utilisent probablement une combinaison d'heuristiques et de conjectures, de sorte que leur performance est sensible à la difficulté de la tâche mais robuste aux variations perceptuelles. Cela suggère que les VLMs, dépourvus de capacité d'inférence du regard, n'ont pas encore atteint le statut de technologies capables d'interagir naturellement avec les humains, mais le potentiel demeure.
L'ajustement fin des modèles de diffusion vidéo (VDMs) au niveau de l'utilisateur pour générer des vidéos reflétant des attributs spécifiques des données d'entraînement présente des défis notables, tout en restant sous-exploré malgré son importance pratique. Par ailleurs, des travaux récents tels que l'alignement des représentations (REPA) ont montré des résultats prometteurs pour améliorer la convergence et la qualité des modèles de diffusion d'images basés sur DiT en alignant, ou en assimilant, leurs états cachés internes avec des caractéristiques visuelles pré-entraînées externes, suggérant ainsi son potentiel pour l'ajustement fin des VDMs. Dans ce travail, nous proposons d'abord une adaptation directe de REPA pour les VDMs et démontrons empiriquement que, bien qu'efficace pour la convergence, il est sous-optimal pour préserver la cohérence sémantique entre les images. Pour remédier à cette limitation, nous introduisons l'alignement des représentations inter-images (CREPA), une nouvelle technique de régularisation qui aligne les états cachés d'une image avec des caractéristiques externes provenant d'images voisines. Les évaluations empiriques sur des VDMs à grande échelle, tels que CogVideoX-5B et Hunyuan Video, montrent que CREPA améliore à la fois la fidélité visuelle et la cohérence sémantique inter-images lors de l'ajustement fin avec des méthodes paramétriquement efficaces comme LoRA. Nous validons en outre CREPA sur divers ensembles de données présentant des attributs variés, confirmant ainsi son applicabilité large. Page du projet : https://crepavideo.github.io
Il est crucial que les grands modèles de langage soient conscients des limites de leurs connaissances et du mécanisme d'identification des requêtes connues et inconnues. Ce type de conscience peut aider les modèles à effectuer des inférences adaptatives, telles que l'invocation de RAG (Retrieval-Augmented Generation), l'engagement dans une réflexion lente et approfondie, ou l'adoption d'un mécanisme d'abstention, ce qui est bénéfique pour le développement d'une IA efficace et digne de confiance. Dans ce travail, nous proposons une méthode pour détecter les limites des connaissances via l'incertitude au niveau de la requête, qui vise à déterminer si le modèle est capable de répondre à une requête donnée sans générer de tokens. À cette fin, nous introduisons une méthode nouvelle et sans entraînement appelée Confiance Interne, qui exploite les auto-évaluations à travers les couches et les tokens. Les résultats empiriques sur des tâches de questions-réponses factuelles et de raisonnement mathématique démontrent que notre confiance interne surpasse plusieurs méthodes de référence. De plus, nous montrons que notre méthode proposée peut être utilisée pour un RAG efficace et un enchaînement de modèles, permettant de réduire les coûts d'inférence tout en maintenant les performances.
L'intelligence artificielle (IA) est devenue un outil fondamental pour assister les cliniciens dans l'analyse d'images ophtalmiques, telles que la tomographie par cohérence optique (OCT). Cependant, le développement de modèles d'IA nécessite souvent une annotation extensive, et les modèles existants tendent à sous-performer sur des données indépendantes et non vues auparavant. Les modèles de base (FMs), de grands modèles d'IA entraînés sur de vastes ensembles de données non annotées, ont montré des perspectives prometteuses pour surmonter ces défis. Néanmoins, les FMs disponibles pour l'ophtalmologie manquent d'une validation approfondie, en particulier pour les tâches de segmentation, et se concentrent sur une seule modalité d'imagerie. Dans ce contexte, nous proposons MIRAGE, un nouveau FM multimodal pour l'analyse des images OCT et de l'ophtalmoscopie par balayage laser (SLO). De plus, nous proposons un nouveau benchmark d'évaluation avec des tâches de classification et de segmentation OCT/SLO. La comparaison avec des FMs généraux et spécialisés ainsi que des méthodes de segmentation démontre la supériorité de MIRAGE dans les deux types de tâches, soulignant son adéquation comme base pour le développement de systèmes d'IA robustes pour l'analyse d'images rétiniennes OCT. MIRAGE et le benchmark d'évaluation sont disponibles publiquement : https://github.com/j-morano/MIRAGE.
Alors que les grands modèles de langage (LLMs) propulsent l'avancée rapide de l'intelligence artificielle, l'entraînement efficace et fiable de ces modèles de grande taille reste l'un des défis les plus importants du domaine. Pour relever ce défi, nous proposons POET, un nouvel algorithme d'entraînement reparamétré qui utilise une Transformation Orthogonale d'Équivalence pour optimiser les neurones. Plus précisément, POET reparamètre chaque neurone avec deux matrices orthogonales apprenables et une matrice de poids aléatoire fixe. Grâce à sa capacité prouvée à préserver les propriétés spectrales des matrices de poids, POET peut optimiser de manière stable la fonction objectif avec une généralisation améliorée. Nous développons en outre des approximations efficaces qui rendent POET flexible et évolutif pour l'entraînement de réseaux neuronaux à grande échelle. Des expériences approfondies valident l'efficacité et l'évolutivité de POET dans l'entraînement des LLMs.
Le domaine du Question-Réponse Visuel Médical (MedVQA) représente un champ prometteur pour le développement de systèmes d’aide à la décision clinique. Cependant, les progrès sont souvent limités par les jeux de données disponibles, qui peuvent manquer de complexité clinique et de diversité visuelle. Pour combler ces lacunes, nous présentons Kvasir-VQA-x1, un nouveau jeu de données à grande échelle dédié à l’endoscopie gastro-intestinale (GI). Notre travail étend considérablement l’original Kvasir-VQA en intégrant 159 549 nouvelles paires question-réponse conçues pour tester un raisonnement clinique plus approfondi. Nous avons développé une méthode systématique utilisant des modèles de langage de grande envergure pour générer ces questions, qui sont stratifiées par complexité afin de mieux évaluer les capacités d’inférence d’un modèle. Pour garantir que notre jeu de données prépare les modèles à des scénarios cliniques réels, nous avons également introduit une variété d’augmentations visuelles qui imitent les artefacts d’imagerie courants. Le jeu de données est structuré pour supporter deux principales pistes d’évaluation : une pour la performance standard en VQA et une autre pour tester la robustesse des modèles face à ces perturbations visuelles. En offrant un benchmark plus exigeant et cliniquement pertinent, Kvasir-VQA-x1 vise à accélérer le développement de systèmes d’IA multimodaux plus fiables et efficaces pour une utilisation en milieu clinique. Le jeu de données est entièrement accessible et respecte les principes FAIR (Findable, Accessible, Interoperable, Reusable), en faisant une ressource précieuse pour la communauté de recherche élargie. Code et données : https://github.com/Simula/Kvasir-VQA-x1 et https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1.
Prédire les trajectoires intermédiaires entre une distribution initiale et une distribution cible est un problème central dans la modélisation générative. Les approches existantes, telles que l'appariement de flux (*flow matching*) et l'appariement de ponts de Schrödinger (*Schrödinger Bridge Matching*), apprennent efficacement des correspondances entre deux distributions en modélisant un seul chemin stochastique. Cependant, ces méthodes sont intrinsèquement limitées à des transitions unimodales et ne peuvent pas capturer une évolution ramifiée ou divergente partant d'une origine commune vers plusieurs résultats distincts. Pour résoudre ce problème, nous introduisons l'appariement de ponts de Schrödinger ramifiés (*Branched Schrödinger Bridge Matching*, BranchSBM), un cadre novateur qui apprend des ponts de Schrödinger ramifiés. BranchSBM paramétrise plusieurs champs de vitesse dépendants du temps et des processus de croissance, permettant ainsi de représenter la divergence au niveau de la population vers plusieurs distributions terminales. Nous montrons que BranchSBM est non seulement plus expressif, mais aussi essentiel pour des tâches impliquant la navigation multi-chemins sur des surfaces, la modélisation des bifurcations du destin cellulaire à partir d'états progéniteurs homogènes, et la simulation de réponses cellulaires divergentes à des perturbations.
Les grands modèles de langage rencontrent fréquemment des conflits entre leurs connaissances paramétriques et les entrées contextuelles, ce qui entraîne souvent des incohérences factuelles ou des hallucinations. Nous proposons le Débat Auto-Réflexif pour la Fiabilité Contextuelle (SR-DCR), un cadre léger qui intègre la confiance auto-évaluée au niveau des tokens avec un débat asymétrique multi-agents pour résoudre de tels conflits. Un critique, privé de contexte, défie un défenseur qui argumente à partir du passage donné ; un modèle juge évalue le débat et détermine la fiabilité du contexte. La réponse finale est sélectionnée en combinant le verdict avec la confiance du modèle. Les expériences sur le benchmark ClashEval démontrent que SR-DCR améliore systématiquement la robustesse face à un contexte trompeur tout en maintenant la précision sur les entrées fiables, surpassant à la fois les débats classiques et les bases de référence basées uniquement sur la confiance, avec un surcoût computationnel minimal. Le code est disponible à l'adresse https://github.com/smiles724/Self-Reflective-Debates.
Les grands modèles de raisonnement (LRMs) ont démontré des capacités de raisonnement impressionnantes sur un large éventail de tâches, y compris des problèmes mathématiques de niveau Olympiade, indiquant des preuves de leurs capacités de raisonnement complexes. Bien que de nombreux benchmarks de raisonnement se concentrent sur le domaine STEM, la capacité des LRMs à raisonner correctement dans des domaines de tâches plus larges reste sous-explorée. Dans ce travail, nous introduisons TTT-Bench, un nouveau benchmark conçu pour évaluer les capacités de raisonnement stratégique, spatial et logique de base des LRMs à travers une suite de quatre jeux à deux joueurs de type Tic-Tac-Toe que les humains peuvent résoudre sans effort dès leur plus jeune âge. Nous proposons une approche programmatique simple mais évolutive pour générer des problèmes de jeux à deux joueurs vérifiables pour TTT-Bench. Bien que ces jeux soient triviaux pour les humains, ils nécessitent de raisonner sur les intentions de l'adversaire ainsi que sur les configurations spatiales du plateau de jeu pour assurer une victoire. Nous évaluons un ensemble diversifié de LRMs de pointe et découvrons que les modèles qui excellent dans les problèmes mathématiques difficiles échouent fréquemment sur ces jeux de raisonnement simples. Des tests supplémentaires révèlent que nos modèles de raisonnement évalués obtiennent en moyenne des scores inférieurs de 41 % et 5 % sur TTT-Bench par rapport à MATH 500 et AIME 2024 respectivement, les modèles plus grands obtenant de meilleures performances en utilisant des traces de raisonnement plus courtes, où la plupart des modèles rencontrent des difficultés dans des situations de raisonnement stratégique à long terme sur les tâches simples et nouvelles de TTT-Bench.
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont conduit de nombreux chercheurs à se concentrer sur le développement d'agents IA entièrement autonomes. Ce document de position remet en question la pertinence de cette approche, car ces systèmes autonomes rencontrent encore des problèmes de fiabilité, de transparence et de compréhension des véritables besoins humains. Nous proposons une approche alternative : les systèmes humain-agent basés sur des LLMs (LLM-HAS), où l'IA travaille en collaboration avec les humains plutôt que de les remplacer. En maintenant l'implication humaine pour fournir des conseils, répondre aux questions et conserver le contrôle, ces systèmes peuvent être plus fiables et adaptables. En examinant des exemples issus des domaines de la santé, de la finance et du développement logiciel, nous montrons comment la collaboration humain-IA peut mieux gérer des tâches complexes que l'IA seule. Nous abordons également les défis liés à la construction de ces systèmes collaboratifs et proposons des solutions pratiques. Ce document soutient que les progrès en IA ne devraient pas être mesurés par le degré d'indépendance des systèmes, mais par leur capacité à travailler efficacement avec les humains. L'avenir le plus prometteur pour l'IA ne réside pas dans des systèmes qui prennent le relais des rôles humains, mais dans ceux qui renforcent les capacités humaines grâce à un partenariat significatif.