Articles de recherche en IA sélectionnés quotidiennement avec traductions
Alors que les modèles de langage de grande taille (LLMs) évoluent rapidement, fournir un retour d'information précis et une supervision scalable sur leurs sorties devient un problème urgent et critique. L'utilisation des LLMs comme modèles de critique pour parvenir à une supervision automatisée est une solution prometteuse. Dans ce travail, nous nous concentrons sur l'étude et l'amélioration de la capacité de critique mathématique des LLMs. Les critiques actuels des LLMs fournissent des évaluations trop superficielles pour chaque étape, ce qui entraîne une faible précision de jugement et des difficultés à offrir un retour suffisant pour que le générateur LLM corrige les erreurs. Pour résoudre ce problème, nous proposons un cadre novateur et efficace en deux étapes pour développer des critiques LLM capables d'évaluer de manière réfléchie chaque étape de raisonnement des solutions mathématiques. Dans la première étape, nous utilisons Qwen2.5-72B-Instruct pour générer 4,5K critiques détaillées comme données de base pour un ajustement supervisé. Chaque critique de base comprend des évaluations réfléchies étape par étape, incluant des vérifications multi-perspectives ainsi que des critiques approfondies des évaluations initiales pour chaque étape de raisonnement. Ensuite, nous effectuons un apprentissage par renforcement sur le modèle ajusté, soit avec des données existantes étiquetées par des humains provenant de PRM800K, soit avec nos données annotées automatiquement obtenues via une estimation de la justesse basée sur l'échantillonnage de Monte Carlo, afin de renforcer davantage sa capacité de critique. Notre modèle de critique développé sur Qwen2.5-7B-Instruct surpasse non seulement de manière significative les critiques LLM existants (y compris les modèles DeepSeek-R1-distill de même taille et GPT-4o) sur divers benchmarks d'identification d'erreurs, mais aide également plus efficacement le générateur LLM à affiner les étapes erronées grâce à un retour plus détaillé.
La vidéo générative interactive (Interactive Generative Video, IGV) est apparue comme une technologie cruciale en réponse à la demande croissante de contenus vidéo interactifs de haute qualité dans divers domaines. Dans cet article, nous définissons l'IGV comme une technologie qui combine des capacités génératives pour produire des contenus vidéo diversifiés et de haute qualité avec des fonctionnalités interactives permettant l'engagement des utilisateurs grâce à des signaux de contrôle et des retours réactifs. Nous examinons le paysage actuel des applications de l'IGV, en nous concentrant sur trois domaines majeurs : 1) les jeux vidéo, où l'IGV permet une exploration infinie dans des mondes virtuels ; 2) l'IA incarnée, où l'IGV sert de synthétiseur d'environnements conscients de la physique pour entraîner des agents dans des interactions multimodales avec des scènes en évolution dynamique ; et 3) la conduite autonome, où l'IGV offre des capacités de simulation en boucle fermée pour des tests et validations critiques en matière de sécurité. Pour orienter le développement futur, nous proposons un cadre complet qui décompose un système IGV idéal en cinq modules essentiels : Génération, Contrôle, Mémoire, Dynamique et Intelligence. De plus, nous analysons systématiquement les défis techniques et les orientations futures pour réaliser chaque composant d'un système IGV idéal, tels que la génération en temps réel, le contrôle en domaine ouvert, le maintien de la cohérence à long terme, la simulation de la physique précise et l'intégration du raisonnement causal. Nous pensons que cette analyse systématique facilitera la recherche et le développement futurs dans le domaine de l'IGV, faisant ainsi progresser la technologie vers des applications plus sophistiquées et pratiques.
Les récentes avancées dans les modèles de langage de grande taille ont démontré comment le raisonnement en chaîne de pensée (CoT) et l'apprentissage par renforcement (RL) peuvent améliorer les performances. Cependant, l'application de telles stratégies de raisonnement au domaine de la génération visuelle reste largement inexplorée. Dans cet article, nous présentons T2I-R1, un nouveau modèle de génération texte-à-image amélioré par le raisonnement, alimenté par le RL avec un processus de raisonnement CoT à deux niveaux. Plus précisément, nous identifions deux niveaux de CoT qui peuvent être utilisés pour améliorer différentes étapes de la génération : (1) le CoT au niveau sémantique pour la planification de haut niveau de l'invite et (2) le CoT au niveau des tokens pour le traitement de bas niveau des pixels lors de la génération patch par patch. Pour mieux coordonner ces deux niveaux de CoT, nous introduisons BiCoT-GRPO avec un ensemble de récompenses de génération, qui optimise de manière transparente les deux CoT de génération au cours de la même étape d'entraînement. En appliquant nos stratégies de raisonnement au modèle de base, Janus-Pro, nous obtenons des performances supérieures avec une amélioration de 13 % sur T2I-CompBench et de 19 % sur le benchmark WISE, dépassant même le modèle de pointe FLUX.1. Le code est disponible à l'adresse : https://github.com/CaraJ7/T2I-R1
De nombreuses méthodes pour améliorer les agents de modèles de langage à grande échelle (LLM) dans les tâches de prise de décision séquentielle reposent sur l'ingénierie des connaissances spécifiques à la tâche—comme le réglage des prompts, des exemples contextuels soigneusement sélectionnés, ou des espaces d'observation et d'action personnalisés. Avec ces approches, la performance de l'agent s'améliore avec la qualité ou la quantité d'ingénierie des connaissances investie. À la place, nous explorons comment les agents LLM peuvent améliorer automatiquement leur performance en apprenant en contexte à partir de leurs propres expériences réussies sur des tâches similaires. Plutôt que de dépendre de l'ingénierie des connaissances spécifiques à la tâche, nous nous concentrons sur la construction et l'affinement d'une base de données d'exemples auto-générés. Nous démontrons que même une accumulation naïve de trajectoires réussies à travers les tâches d'entraînement améliore la performance en test sur trois benchmarks : ALFWorld (73% à 89%), Wordcraft (55% à 64%), et InterCode-SQL (75% à 79%)—égalant la performance que l'agent initial atteint s'il est autorisé à deux ou trois tentatives par tâche. Nous introduisons ensuite deux extensions : (1) la sélection au niveau de la base de données via l'entraînement basé sur la population pour identifier des collections d'exemples à haute performance, et (2) la sélection au niveau des exemples qui conserve les trajectoires individuelles en fonction de leur utilité empirique comme exemples contextuels. Ces extensions améliorent encore la performance, atteignant 91% sur ALFWorld—égalant des approches plus complexes qui emploient des composants et des prompts spécifiques à la tâche. Nos résultats démontrent que la construction automatique d'une base de données de trajectoires offre une alternative convaincante à l'ingénierie des connaissances laborieuse.
La synchronisation labiale, définie comme la tâche consistant à aligner les mouvements des lèvres dans une vidéo existante avec un nouvel audio d'entrée, est généralement abordée comme une variante simplifiée de l'animation faciale pilotée par l'audio. Cependant, en plus de souffrir des problèmes habituels de la génération de têtes parlantes (par exemple, la cohérence temporelle), la synchronisation labiale présente des défis significatifs tels que la fuite d'expression provenant de la vidéo d'entrée et les occlusions faciales, qui peuvent gravement impacter des applications réelles comme le doublage automatisé, mais sont souvent négligés dans les travaux existants. Pour remédier à ces lacunes, nous présentons KeySync, un framework en deux étapes qui parvient à résoudre le problème de la cohérence temporelle tout en intégrant des solutions pour la fuite et les occlusions grâce à une stratégie de masquage soigneusement conçue. Nous montrons que KeySync obtient des résultats de pointe en reconstruction labiale et en synchronisation croisée, améliorant la qualité visuelle et réduisant la fuite d'expression selon LipLeak, notre nouvelle métrique de fuite. De plus, nous démontrons l'efficacité de notre nouvelle approche de masquage pour gérer les occlusions et validons nos choix architecturaux à travers plusieurs études d'ablation. Le code et les poids des modèles sont disponibles à l'adresse https://antonibigata.github.io/KeySync.
Les histoires morales sont un véhicule éprouvé pour transmettre des valeurs, mais les modèles de traitement du langage naturel (NLP) modernes manquent d'un corpus vaste et structuré qui associe des récits cohérents à des leçons éthiques explicites. Nous comblons cette lacune avec TF1-EN-3M, le premier ensemble de données ouvert de trois millions de fables en langue anglaise générées exclusivement par des modèles ajustés par instruction ne dépassant pas 8 milliards de paramètres. Chaque histoire suit une structure en six étapes (personnage -> trait -> cadre -> conflit -> résolution -> morale), produite par un moteur de prompts combinatoires qui garantit la fidélité au genre tout en couvrant un large espace thématique. Un pipeline d'évaluation hybride combine (i) un critique basé sur GPT qui évalue la grammaire, la créativité, la clarté morale et l'adhésion au modèle avec (ii) des métriques de diversité et de lisibilité sans référence. Parmi dix candidats à poids ouvert, une variante de Llama-3 à 8 milliards de paramètres offre le meilleur compromis qualité-vitesse, produisant des fables hautement notées sur un seul GPU grand public (<24 Go de VRAM) pour environ 13,5 cents par 1 000 fables. Nous publions l'ensemble de données, le code de génération, les scripts d'évaluation et les métadonnées complètes sous une licence permissive, permettant une reproductibilité exacte et un benchmarking des coûts. TF1-EN-3M ouvre des perspectives de recherche dans le suivi d'instructions, l'intelligence narrative, l'alignement des valeurs et l'IA éducative adaptée aux enfants, démontrant que la narration morale à grande échelle ne nécessite plus de modèles géants propriétaires.
Les modèles de langage de grande taille (LLMs) ont transformé le génie logiciel, mais leur application aux domaines du génie physique reste peu explorée. Cet article évalue les capacités des LLMs dans la conception de fusées à haute puissance à travers RocketBench, un benchmark connectant les LLMs à des simulations de fusées à haute fidélité. Nous testons les modèles sur deux tâches de conception de complexité croissante : l'optimisation de l'altitude cible et les défis d'atterrissage de précision. Nos résultats révèlent que si les LLMs de pointe démontrent une solide connaissance de base en ingénierie, ils peinent à itérer sur leurs conceptions lorsqu'ils reçoivent des résultats de simulation et finissent par plafonner en dessous des niveaux de performance humaine. Cependant, lorsqu'ils sont renforcés par l'apprentissage par renforcement (RL), nous montrons qu'un modèle de 7 milliards de paramètres surpasse à la fois les modèles de base de pointe et les experts humains. Cette recherche démontre que les LLMs entraînés par RL peuvent servir d'outils efficaces pour l'optimisation complexe en ingénierie, transformant potentiellement les domaines de l'ingénierie au-delà du développement logiciel.
Récemment, les modèles de raisonnement à long terme ont obtenu des performances solides sur des tâches de raisonnement complexes, mais entraînent souvent des surcoûts d'inférence substantiels, ce qui rend l'efficacité une préoccupation critique. Notre analyse empirique révèle que l'avantage d'utiliser le Long-CoT varie selon les problèmes : alors que certains problèmes nécessitent un raisonnement élaboré, d'autres ne montrent aucune amélioration, voire une précision dégradée. Cela motive des stratégies de raisonnement adaptatives qui ajustent la profondeur du raisonnement à l'entrée. Cependant, les travaux antérieurs réduisent principalement la redondance dans les longs chemins de raisonnement, limitant l'exploration de stratégies plus efficaces au-delà du paradigme Long-CoT. Pour remédier à cela, nous proposons un cadre novateur en deux étapes pour un raisonnement adaptatif et efficace. Premièrement, nous construisons un modèle de raisonnement hybride en fusionnant des modèles CoT longs et courts pour permettre des styles de raisonnement diversifiés. Deuxièmement, nous appliquons un entraînement de préférence bi-niveau pour guider le modèle à sélectionner des styles de raisonnement appropriés (au niveau du groupe) et à privilégier un raisonnement concis et correct au sein de chaque groupe de style (au niveau de l'instance). Les expériences démontrent que notre méthode réduit significativement les coûts d'inférence par rapport aux autres approches de référence, tout en maintenant les performances. Notamment, sur cinq ensembles de données mathématiques, la longueur moyenne du raisonnement est réduite de plus de 50%, mettant en évidence le potentiel des stratégies adaptatives pour optimiser l'efficacité du raisonnement dans les grands modèles de langage. Notre code sera bientôt disponible à l'adresse https://github.com/StarDewXXX/AdaR1.
Les interfaces de script permettent aux utilisateurs d'automatiser des tâches et de personnaliser les flux de travail logiciels, mais la création de scripts nécessite traditionnellement une expertise en programmation et une familiarité avec des API spécifiques, ce qui constitue un obstacle pour de nombreux utilisateurs. Bien que les modèles de langage de grande taille (LLMs) puissent générer du code à partir de requêtes en langage naturel, la génération de code en temps réel est fortement limitée en raison de code non vérifié, de risques de sécurité, de temps de réponse plus longs et de coûts de calcul plus élevés. Pour combler cet écart, nous proposons un cadre de simulation hors ligne pour constituer un ensemble de compétences spécifiques à un logiciel, une collection de scripts vérifiés, en exploitant les LLMs et les guides de script disponibles publiquement. Notre cadre comprend deux composants : (1) la création de tâches, utilisant une guidance fonctionnelle descendante et une exploration ascendante de la synergie des API pour générer des tâches utiles ; et (2) la génération de compétences avec essais, affinant et validant les scripts sur la base des retours d'exécution. Pour naviguer efficacement dans le vaste paysage des API, nous introduisons un modèle de prédiction de liens basé sur un réseau de neurones graphiques (GNN) pour capturer la synergie des API, permettant la génération de compétences impliquant des API sous-utilisées et élargissant la diversité de l'ensemble de compétences. Les expériences avec Adobe Illustrator démontrent que notre cadre améliore significativement les taux de réussite de l'automatisation, réduit le temps de réponse et économise les coûts de tokens en temps d'exécution par rapport à la génération de code en temps réel traditionnelle. Il s'agit de la première tentative d'utiliser les interfaces de script logiciel comme banc d'essai pour les systèmes basés sur les LLMs, mettant en lumière les avantages de tirer parti des retours d'exécution dans un environnement contrôlé et offrant des insights précieux sur l'alignement des capacités de l'IA avec les besoins des utilisateurs dans des domaines logiciels spécialisés.
Imaginez-vous dans un espace bondé où les gens parlent une langue différente, équipé d'écouteurs qui transforment l'espace sonore dans votre langue maternelle, tout en préservant les indices spatiaux pour tous les locuteurs. Nous introduisons la traduction vocale spatiale, un concept novateur pour les écouteurs qui traduisent les locuteurs dans l'environnement de l'utilisateur, tout en conservant la direction et les caractéristiques vocales uniques de chaque locuteur dans le rendu binaural. Pour y parvenir, nous relevons plusieurs défis techniques, allant de la séparation aveugle des sources, la localisation, la traduction expressive en temps réel, au rendu binaural pour préserver les directions des locuteurs dans l'audio traduit, tout en réalisant une inférence en temps réel sur le silicium Apple M2. Notre évaluation de preuve de concept avec un prototype de casque binaural montre que, contrairement aux modèles existants qui échouent en présence d'interférences, nous atteignons un score BLEU allant jusqu'à 22,01 lors de la traduction entre langues, malgré de fortes interférences d'autres locuteurs dans l'environnement. Des études utilisateurs confirment en outre l'efficacité du système dans le rendu spatial de la parole traduite dans des environnements réels réverbérants jamais rencontrés auparavant. En prenant du recul, ce travail marque la première étape vers l'intégration de la perception spatiale dans la traduction vocale.
L'augmentation de données est essentielle en imagerie médicale pour améliorer la précision de la classification, la détection des lésions et la segmentation des organes dans des conditions de données limitées. Cependant, deux défis majeurs persistent. Premièrement, un écart de domaine marqué entre les photographies naturelles et les images médicales peut déformer les caractéristiques critiques des maladies. Deuxièmement, les études sur l'augmentation en imagerie médicale sont fragmentées et limitées à des tâches ou architectures uniques, laissant les avantages des stratégies avancées basées sur le mélange incertains. Pour relever ces défis, nous proposons un cadre d'évaluation unifié avec six méthodes d'augmentation basées sur le mélange, intégrées à des architectures convolutives et transformateurs, sur des ensembles de données d'IRM de tumeurs cérébrales et de fond d'œil pour les maladies oculaires. Nos contributions sont triples. (1) Nous introduisons MediAug, un benchmark complet et reproductible pour l'augmentation avancée de données en imagerie médicale. (2) Nous évaluons systématiquement MixUp, YOCO, CropMix, CutMix, AugMix et SnapMix avec les architectures ResNet-50 et ViT-B. (3) Nous démontrons par des expériences approfondies que MixUp apporte la plus grande amélioration pour la tâche de classification des tumeurs cérébrales avec ResNet-50, atteignant une précision de 79,19 %, et que SnapMix apporte la plus grande amélioration pour ViT-B avec une précision de 99,44 %. De plus, YOCO apporte la plus grande amélioration pour la tâche de classification des maladies oculaires avec ResNet-50, atteignant une précision de 91,60 %, et CutMix apporte la plus grande amélioration pour ViT-B avec une précision de 97,94 %. Le code sera disponible à l'adresse https://github.com/AIGeeksGroup/MediAug.
Les capteurs de vision deviennent de plus en plus importants dans les systèmes de transport intelligents (ITS) pour la surveillance, la gestion et l'optimisation du trafic, à mesure que le nombre de caméras réseau continue d'augmenter. Cependant, le suivi et l'appariement manuels d'objets à travers plusieurs caméras non chevauchantes posent des défis significatifs dans les scénarios de trafic urbain à l'échelle de la ville. Ces défis incluent la gestion d'attributs variés des véhicules, des occlusions, des variations d'éclairage, des ombres et des résolutions vidéo variables. Pour résoudre ces problèmes, nous proposons un cadre efficace et économique basé sur l'apprentissage profond pour le suivi multi-objets multi-caméras (MO-MCT). Le cadre proposé utilise Mask R-CNN pour la détection d'objets et emploie la suppression non maximale (NMS) pour sélectionner les objets cibles parmi les détections qui se chevauchent. L'apprentissage par transfert est utilisé pour la ré-identification, permettant l'association et la génération de trajectoires de véhicules à travers plusieurs caméras. De plus, nous exploitons des fonctions de perte et des mesures de distance appropriées pour gérer les défis liés aux occlusions, à l'éclairage et aux ombres. Le module final d'identification de solution effectue l'extraction de caractéristiques en utilisant ResNet-152 couplé au suivi de véhicules basé sur Deep SORT. Le cadre proposé est évalué sur le jeu de données du 5e défi AI City (piste 3), comprenant 46 flux de caméras. Parmi ces 46 flux de caméras, 40 sont utilisés pour l'entraînement et la validation du modèle, tandis que les six restants sont utilisés pour les tests du modèle. Le cadre proposé atteint une performance compétitive avec un score IDF1 de 0,8289, et des scores de précision et de rappel de 0,9026 et 0,8527 respectivement, démontrant son efficacité dans le suivi robuste et précis des véhicules.