Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous explorons une méthode pour améliorer les performances des grands modèles de langage grâce à l'auto-réflexion et à l'apprentissage par renforcement. En incitant le modèle à générer de meilleures auto-réflexions lorsqu'il répond incorrectement, nous démontrons que la capacité d'un modèle à résoudre des tâches complexes et vérifiables peut être améliorée, même lorsque la génération de données synthétiques est impossible et que seul un retour binaire est disponible. Notre cadre opère en deux étapes : premièrement, après avoir échoué à une tâche donnée, le modèle génère un commentaire auto-réflexif analysant sa tentative précédente ; deuxièmement, le modèle reçoit une nouvelle tentative pour la tâche avec l'auto-réflexion en contexte. Si la tentative suivante réussit, les tokens générés pendant la phase d'auto-réflexion sont récompensés. Nos résultats expérimentaux montrent des gains de performance substantiels à travers une variété d'architectures de modèles, avec des améliorations allant jusqu'à 34,7 % pour l'écriture d'équations mathématiques et 18,1 % pour l'appel de fonctions. Notamment, les modèles plus petits et affinés (1,5 à 7 milliards de paramètres) surpassent les modèles de la même famille qui sont 10 fois plus grands. Notre nouveau paradigme constitue ainsi une voie prometteuse vers des modèles de langage plus utiles et fiables, capables de s'auto-améliorer sur des tâches difficiles avec un retour externe limité.
Bien que les modèles unifiés existants offrent des performances solides en compréhension vision-langage et en génération d'images à partir de texte, ils sont limités dans l'exploration des tâches de perception et de manipulation d'images, pourtant fortement demandées par les utilisateurs pour des applications variées. Récemment, OpenAI a publié son puissant modèle GPT-4o-Image pour une perception et une manipulation complètes des images, atteignant une capacité expressive et suscitant l'intérêt de la communauté. En observant les performances de GPT-4o-Image dans nos expériences soigneusement conçues, nous déduisons que GPT-4o-Image exploite des caractéristiques extraites par des encodeurs sémantiques plutôt que par des VAE, alors que les VAE sont considérés comme des composants essentiels dans de nombreux modèles de manipulation d'images. Motivés par ces observations inspirantes, nous présentons un cadre génératif unifié nommé UniWorld, basé sur des caractéristiques sémantiques fournies par des modèles vision-langage puissants et des encodeurs sémantiques contrastifs. En conséquence, nous construisons un modèle unifié robuste en utilisant seulement 1 % des données de BAGEL, surpassant systématiquement BAGEL sur les benchmarks d'édition d'images. UniWorld maintient également des capacités compétitives en compréhension et génération d'images, obtenant des performances solides sur plusieurs tâches de perception d'images. Nous mettons entièrement en open-source nos modèles, incluant les poids des modèles, les scripts d'entraînement et d'évaluation, ainsi que les jeux de données.
Les avancées récentes dans les modèles de langage visuel (Vision Language Models, VLMs) ont étendu leurs capacités aux tâches d'agents interactifs, mais les benchmarks existants restent limités à des environnements mono-agents ou textuels uniquement. En revanche, les scénarios réels impliquent souvent plusieurs agents interagissant dans des contextes visuels et linguistiques riches, posant des défis à la fois en termes d'observations multimodales et d'interactions stratégiques. Pour combler cette lacune, nous introduisons Visual Strategic Bench (VS-Bench), un benchmark multimodal qui évalue les VLMs pour le raisonnement stratégique et la prise de décision dans des environnements multi-agents. VS-Bench comprend huit environnements ancrés dans la vision, couvrant des interactions coopératives, compétitives et à motivations mixtes, conçus pour évaluer la capacité des agents à prédire les actions futures des autres et à optimiser pour des objectifs à long terme. Nous considérons deux dimensions d'évaluation complémentaires, incluant l'évaluation hors ligne du raisonnement stratégique par la précision de prédiction des actions suivantes et l'évaluation en ligne de la prise de décision par le rendement normalisé des épisodes. Des expériences approfondies sur quatorze VLMs de pointe révèlent un écart significatif entre les modèles actuels et les performances optimales, les meilleurs modèles atteignant 47,8 % de précision de prédiction et 24,3 % de rendement normalisé. Nous menons également des analyses approfondies sur les observations multimodales, la mise à l'échelle au moment du test, les comportements sociaux et les cas d'échec des agents VLM. En standardisant l'évaluation et en mettant en lumière les limites des modèles existants, nous envisageons VS-Bench comme une base pour les recherches futures sur les agents multimodaux stratégiques. Le code et les données sont disponibles à l'adresse https://vs-bench.github.io.
Les modèles vision-langage (VLMs) entraînés par apprentissage par renforcement avec récompense vérifiable (RLVR) ont montré des progrès notables dans la mise à l'échelle efficace du calcul au moment des tests. Dans ce travail, nous étudions comment les données RL synthétisées peuvent encore améliorer le RLVR. À cette fin, nous proposons SynthRL, un pipeline évolutif et garanti pour la mise à l'échelle automatique des données dans l'entraînement RL orienté raisonnement. SynthRL comprend trois étapes clés : (1) la sélection de questions de départ avec une distribution appropriée, (2) leur augmentation en variantes plus difficiles tout en préservant les réponses originales, et (3) une étape de vérification garantie qui assure une correction quasi parfaite et une augmentation de la difficulté. Nos expériences empiriques démontrent l'évolutivité et l'efficacité de SynthRL. Appliqué au jeu de données MMK12, SynthRL synthétise plus de 3,3K questions supplémentaires vérifiables et difficiles à partir d'environ 8K échantillons de départ. Les modèles entraînés avec nos données synthétisées obtiennent des gains constants sur cinq benchmarks de raisonnement mathématique visuel hors domaine, avec une amélioration significative par rapport aux modèles de base entraînés uniquement sur les données de départ. Notamment, une analyse détaillée révèle que les gains sont plus prononcés sur les échantillons d'évaluation les plus difficiles, mettant en évidence l'efficacité de SynthRL pour susciter des schémas de raisonnement plus profonds et complexes.
Les modèles vision-langage (VLMs) ont démontré des progrès remarquables dans la compréhension multimodale, mais leurs capacités en matière de raisonnement scientifique restent insuffisamment évaluées. Les benchmarks multimodaux actuels évaluent principalement la compréhension générique d'images ou le raisonnement basé sur le texte, manquant de contextes scientifiques authentiques qui nécessitent l'intégration de connaissances spécifiques à un domaine avec l'analyse de preuves visuelles. Pour combler cette lacune, nous présentons CSVQA, un benchmark multimodal diagnostique spécialement conçu pour évaluer le raisonnement scientifique à travers des questions-réponses visuelles ancrées dans un domaine. Notre benchmark comprend 1 378 paires de questions-réponses soigneusement construites couvrant diverses disciplines STEM, chacune exigeant des connaissances du domaine, l'intégration de preuves visuelles et un raisonnement d'ordre supérieur. Par rapport aux benchmarks multimodaux précédents, CSVQA accorde une plus grande importance au contenu scientifique réel et au raisonnement complexe. Nous proposons en outre un protocole d'évaluation rigoureux pour évaluer systématiquement si les prédictions des modèles sont étayées par des étapes de raisonnement intermédiaires valides basées sur des explications soigneusement sélectionnées. Notre évaluation complète de 15 VLMs sur ce benchmark révèle des disparités de performances notables, car même le modèle propriétaire le mieux classé n'atteint qu'une précision de 49,6 %. Ces preuves empiriques soulignent le besoin pressant d'améliorer les capacités de raisonnement scientifique des VLMs. Notre CSVQA est disponible à l'adresse suivante : https://huggingface.co/datasets/Skywork/CSVQA.
L'un des principaux défis dans la construction d'agents d'interface graphique (GUI) pilotés par des modèles de langage visuel (VLM) est l'ancrage visuel, c'est-à-dire la localisation de la région appropriée de l'écran pour l'exécution d'une action en fonction à la fois du contenu visuel et des plans textuels. La plupart des travaux existants formulent cela comme une tâche de génération de coordonnées basée sur le texte. Cependant, ces approches souffrent de plusieurs limitations : un alignement spatial-sémantique faible, une incapacité à gérer des cibles de supervision ambiguës, et une inadéquation entre la nature dense des coordonnées d'écran et la granularité grossière, au niveau des patches, des caractéristiques visuelles extraites par des modèles comme les Vision Transformers. Dans cet article, nous proposons GUI-Actor, une méthode basée sur VLM pour l'ancrage visuel sans coordonnées. Au cœur de GUI-Actor se trouve une tête d'action basée sur l'attention qui apprend à aligner un token dédié <ACTOR> avec tous les tokens de patch visuels pertinents, permettant au modèle de proposer une ou plusieurs régions d'action en une seule passe avant. En lien avec cela, nous concevons également un vérificateur d'ancrage pour évaluer et sélectionner la région d'action la plus plausible parmi les candidats proposés pour l'exécution de l'action. Des expériences approfondies montrent que GUI-Actor surpasse les méthodes précédentes de pointe sur plusieurs benchmarks d'ancrage d'actions GUI, avec une amélioration de la généralisation à des résolutions et des mises en page d'écran inédites. Notamment, GUI-Actor-7B dépasse même UI-TARS-72B (38.1) sur ScreenSpot-Pro, atteignant des scores de 40.7 avec Qwen2-VL et 44.6 avec Qwen2.5-VL comme backbones. De plus, en incorporant le vérificateur, nous constatons que le fine-tuning uniquement de la nouvelle tête d'action introduite (~100M paramètres pour le modèle 7B) tout en gardant le backbone VLM gelé est suffisant pour atteindre des performances comparables aux modèles précédents de pointe, soulignant que GUI-Actor peut doter le VLM sous-jacent de capacités d'ancrage efficaces sans compromettre ses forces généralistes.
Le raisonnement spatial est un aspect clé de la psychologie cognitive et reste un goulot d'étranglement majeur pour les modèles vision-langage (VLMs) actuels. Bien que des recherches approfondies aient visé à évaluer ou à améliorer la compréhension des relations spatiales de base par les VLMs, comme distinguer la gauche de la droite, le proche du lointain, et le comptage d'objets, ces tâches ne représentent que le niveau le plus fondamental du raisonnement spatial. Dans ce travail, nous présentons OmniSpatial, un benchmark complet et exigeant pour le raisonnement spatial, ancré dans la psychologie cognitive. OmniSpatial couvre quatre catégories principales : le raisonnement dynamique, la logique spatiale complexe, l'interaction spatiale et la prise de perspective, avec 50 sous-catégories fines. Grâce à l'exploration de données sur Internet et à une annotation manuelle minutieuse, nous avons construit plus de 1 500 paires de questions-réponses. Des expériences approfondies montrent que les VLMs open-source et propriétaires, ainsi que les modèles existants de raisonnement et de compréhension spatiale, présentent des limitations significatives dans la compréhension spatiale globale. Nous analysons en outre les cas d'échec et proposons des pistes potentielles pour les recherches futures.
Les modèles récents de raisonnement à grande échelle (LRMs) exploitent des chaînes de pensée étendues (CoT) pour résoudre des tâches complexes, atteignant des performances de pointe. Malgré leur succès, nous identifions un problème critique : une part importante des tâches simples résolues par les LRMs peut également être traitée par des modèles de langage non raisonneurs (LLMs) en utilisant bien moins de tokens, ce qui suggère que le raisonnement complexe n'est pas toujours nécessaire. Pour remédier à cela, nous analysons systématiquement les trajectoires de raisonnement des LRMs et proposons une méthode utilisant des paradigmes identifiés et un LLM-Juge pour classer ces trajectoires en Raisonnement Redondant ou Raisonnement Essentiel. Nous introduisons également OThink-R1, une méthode qui élimine les étapes de raisonnement redondantes tout en préservant la validité logique. OThink-R1 utilise dynamiquement le mode non-réfléchi (pensée rapide) pour les problèmes simples et engage une réflexion approfondie (pensée lente) pour les problèmes complexes. Les expériences menées sur des tâches mathématiques et de question-réponse montrent qu'OThink-R1 réduit la redondance de raisonnement de près de 23 % en moyenne sans compromettre la précision, offrant ainsi des directives pratiques pour des modèles de raisonnement efficaces. Le code est disponible à l'adresse suivante : https://github.com/AgenticIR-Lab/OThink-R1.
Les modèles de langage multimodaux de grande envergure (MLLMs) ont connu un développement rapide ces dernières années. Cependant, dans le domaine financier, il existe un manque notable de jeux de données d'évaluation multimodaux spécialisés et efficaces. Pour faire progresser le développement des MLLMs dans le domaine de la finance, nous introduisons FinMME, qui englobe plus de 11 000 échantillons de recherche financière de haute qualité couvrant 18 domaines financiers et 6 classes d'actifs, avec 10 types de graphiques principaux et 21 sous-types. Nous assurons la qualité des données grâce à 20 annotateurs et à des mécanismes de validation soigneusement conçus. De plus, nous développons FinScore, un système d'évaluation intégrant des pénalités pour les hallucinations et une évaluation multidimensionnelle des capacités pour fournir une évaluation impartiale. Les résultats expérimentaux approfondis démontrent que même les modèles de pointe comme GPT-4o présentent des performances insatisfaisantes sur FinMME, soulignant son caractère exigeant. Le benchmark présente une robustesse élevée, avec des variations de prédiction sous différents prompts restant inférieures à 1 %, démontrant une fiabilité supérieure par rapport aux jeux de données existants. Notre jeu de données et protocole d'évaluation sont disponibles à l'adresse https://huggingface.co/datasets/luojunyu/FinMME et https://github.com/luo-junyu/FinMME.
Les progrès remarquables des modèles de langage multimodaux de grande envergure (MLLMs) ont suscité un intérêt croissant pour leur extension à des entités physiques telles que les robots à pattes. Cela nécessite généralement que les MLLMs maîtrisent non seulement des capacités de compréhension multimodale, mais intègrent également des aptitudes de raisonnement visuo-spatial et d'interaction physique. Cependant, les méthodes existantes peinent à unifier ces capacités en raison de leurs différences fondamentales. Dans cet article, nous présentons le **Visual Embodied Brain (VeBrain)**, un cadre unifié pour la perception, le raisonnement et le contrôle dans le monde réel. VeBrain reformule le contrôle robotique en tâches MLLM basées sur le texte dans l'espace visuel 2D, unifiant ainsi les objectifs et les espaces de mappage des différentes tâches. Ensuite, un adaptateur robotique innovant est proposé pour convertir les signaux de contrôle textuels des MLLMs en politiques de mouvement pour les robots réels. Du point de vue des données, nous introduisons également **VeBrain-600k**, un ensemble de données d'instructions de haute qualité couvrant diverses capacités de VeBrain. Dans VeBrain-600k, nous avons consacré des centaines d'heures à collecter, organiser et annoter les données, et avons adopté une chaîne de pensée multimodale (CoT) pour mélanger les différentes capacités dans une seule conversation. Des expériences approfondies sur 13 benchmarks multimodaux et 5 benchmarks d'intelligence spatiale démontrent la performance supérieure de VeBrain par rapport aux MLLMs existants comme Qwen2.5-VL. Lorsqu'il est déployé sur des robots à pattes et des bras robotiques, VeBrain montre une forte adaptabilité, flexibilité et capacité de composition par rapport aux méthodes existantes. Par exemple, comparé à Qwen2.5-VL, VeBrain non seulement réalise des gains substantiels sur MMVet de +5,6 %, mais excelle également dans les tâches de robots à pattes avec des gains moyens de +50 %.
Les modèles de langage à diffusion (Diffusion LLMs) sont apparus comme une alternative prometteuse aux modèles de langage autoregressifs conventionnels, offrant un potentiel significatif d'amélioration de l'efficacité en temps d'exécution. Cependant, les modèles de diffusion existants ne parviennent pas à appliquer de manière prouvée des contraintes formelles spécifiées par l'utilisateur, telles que les expressions régulières, ce qui les rend peu fiables pour les tâches nécessitant des sorties structurées, comme la génération de JSON avec un schéma fixe. Contrairement aux modèles autoregressifs qui génèrent des tokens de manière séquentielle, les Diffusion LLMs prédisent un bloc de tokens en parallèle. Ce parallélisme rend les algorithmes traditionnels de décodage contraint, conçus pour la prédiction séquentielle de tokens, inefficaces pour préserver la véritable distribution des sorties. Pour pallier cette limitation, nous proposons DINGO, une stratégie de décodage contraint basée sur la programmation dynamique, à la fois efficace et prouvée comme préservant la distribution. DINGO permet l'échantillonnage de chaînes de sortie avec la probabilité la plus élevée selon la distribution prédite par le modèle, tout en satisfaisant strictement toute expression régulière spécifiée par l'utilisateur. Sur des benchmarks standards de génération de mathématiques symboliques et de JSON, DINGO atteint une amélioration allant jusqu'à 68 points de pourcentage par rapport à l'inférence non contrainte.
Les grands modèles vision-langage (Large Vision-Language Models, LVLMs) ont récemment démontré un potentiel significatif pour faire progresser la robotique en combinant le raisonnement incarné avec le contrôle des robots. Une approche courante consiste à entraîner ces modèles sur des tâches de raisonnement incarné liées au contrôle des robots en utilisant le réglage fin supervisé (Supervised Fine-Tuning, SFT). Cependant, les ensembles de données pour le SFT sont souvent construits de manière heuristique et ne sont pas explicitement optimisés pour améliorer le contrôle des robots. De plus, le SFT entraîne fréquemment des problèmes tels que l'oubli catastrophique et une réduction des performances de généralisation. Pour surmonter ces limitations, nous introduisons Robot-R1, un nouveau cadre qui exploite l'apprentissage par renforcement pour améliorer le raisonnement incarné spécifiquement pour le contrôle des robots. Robot-R1 apprend à prédire l'état du point clé suivant nécessaire pour accomplir une tâche, en se basant sur l'image actuelle de la scène et les métadonnées de l'environnement dérivées de démonstrations expertes. Inspiré par l'approche d'apprentissage DeepSeek-R1, Robot-R1 échantillonne des réponses basées sur le raisonnement et renforce celles qui conduisent à des prédictions plus précises. Nos expériences montrent que les modèles entraînés avec Robot-R1 surpassent les méthodes SFT sur les tâches de raisonnement incarné. Malgré ses 7 milliards de paramètres seulement, Robot-R1 dépasse même GPT-4o sur des tâches de raisonnement liées au contrôle d'actions de bas niveau, telles que le raisonnement spatial et le raisonnement sur les mouvements primitifs.
Alors que les Transformeurs de Diffusion (DiTs) ont réalisé des avancées majeures dans la génération vidéo, cette tâche de génération de longues séquences reste limitée par la complexité quadratique des mécanismes d'attention, entraînant une latence d'inférence significative. À travers une analyse détaillée des cartes d'attention dans le Transformeur de Diffusion Vidéo (vDiT), nous identifions trois motifs récurrents de sparsité : les structures diagonales, multi-diagonales et en bandes verticales. De plus, 3 à 6 % des têtes d'attention peuvent être ignorées. Ces motifs présentent des corrélations fortes avec la profondeur des couches et la position des têtes, mais montrent une dépendance limitée au contenu de l'entrée. En exploitant ces observations, nous proposons Sparse-vDiT, un cadre d'accélération par sparsité pour vDiT comprenant : 1) Des noyaux optimisés pour chaque motif de sparsité, remplaçant l'attention dense par des implémentations efficaces en termes de calcul. 2) Un algorithme de recherche de diffusion parcimonieuse hors ligne qui sélectionne la stratégie de calcul parcimonieux optimale par couche et par tête via une modélisation des coûts prenant en compte le matériel. Après avoir déterminé la configuration optimale, nous fusionnons les têtes d'une même couche partageant la même stratégie d'attention, améliorant ainsi l'efficacité de l'inférence. Intégré dans des modèles vDiT de pointe (CogVideoX1.5, HunyuanVideo et Wan2.1), Sparse-vDiT atteint des réductions théoriques de FLOP de 2,09×, 2,38× et 1,67×, et des accélérations réelles d'inférence de 1,76×, 1,85× et 1,58×, respectivement, tout en maintenant une haute fidélité visuelle, avec des valeurs PSNR atteignant 24,13, 27,09 et 22,59. Notre travail démontre que la sparsité structurelle latente dans les vDiTs peut être systématiquement exploitée pour la synthèse de vidéos longues.
Malgré les avancées des Modèles de Langage Multimodaux à Grande Échelle (MLLMs), leur compétence dans la compréhension fine des mouvements vidéo reste fortement limitée. Ils manquent souvent de différenciation inter-images et ont tendance à moyenner ou ignorer les indices visuels subtils. De plus, bien que l'incitation visuelle ait montré un potentiel pour les images statiques, son application aux complexités temporelles des vidéos, en particulier pour la compréhension fine des mouvements, reste largement inexplorée. Nous étudions si une capacité intrinsèque peut être débloquée pour améliorer la perception des mouvements des MLLMs et permettre des signatures visuelles distinctes adaptées pour découpler les indices de mouvement des objets et de la caméra. Dans cette étude, nous introduisons MotionSight, une nouvelle méthode zero-shot qui innove en utilisant un projecteur visuel centré sur les objets et un flou de mouvement comme incitations visuelles pour améliorer efficacement la compréhension fine des mouvements sans entraînement. Pour transformer cela en actifs de données précieux, nous avons constitué MotionVid-QA, le premier jeu de données à grande échelle pour la compréhension fine des mouvements vidéo, avec des annotations hiérarchiques incluant des données SFT et de préférence, {\Theta}(40K) clips vidéo et {\Theta}(87K) QAs. Les expériences montrent que MotionSight atteint des performances de pointe open-source et une compétitivité avec les modèles commerciaux. En particulier, pour la compréhension fine des mouvements, nous présentons une technique zero-shot innovante et un jeu de données à grande échelle et de haute qualité. Tous les codes et annotations seront rendus publics.
Nous présentons Subject Fidelity Optimization (SFO), un nouveau cadre d'apprentissage comparatif pour la génération pilotée par sujet en zero-shot qui améliore la fidélité au sujet. Au-delà des méthodes de fine-tuning supervisé qui s'appuient uniquement sur des cibles positives et utilisent la perte de diffusion comme lors de la phase de pré-entraînement, SFO introduit des cibles négatives synthétiques et guide explicitement le modèle à privilégier les positifs par rapport aux négatifs via une comparaison par paires. Pour les cibles négatives, nous proposons Condition-Degradation Negative Sampling (CDNS), qui génère automatiquement des négatifs distinctifs et informatifs en dégradant intentionnellement les indices visuels et textuels sans recourir à des annotations humaines coûteuses. De plus, nous rééquilibrons les étapes de diffusion pour concentrer le fine-tuning sur les étapes intermédiaires où les détails du sujet émergent. Des expériences approfondies démontrent que SFO avec CDNS surpasse significativement les méthodes de référence en termes de fidélité au sujet et d'alignement textuel sur un benchmark de génération pilotée par sujet. Page du projet : https://subjectfidelityoptimization.github.io/
Nous proposons CURE, un nouveau cadre d'apprentissage par renforcement doté d'une conception de récompense dédiée qui co-évolue les capacités de génération de code et de tests unitaires en fonction de leurs résultats d'interaction, sans aucun code de référence comme supervision. Cette approche permet un entraînement flexible et évolutif et permet au testeur unitaire d'apprendre directement des erreurs du codeur. Nos modèles ReasonFlux-Coder-7B et 14B dérivés améliorent la précision de la génération de code de 5,3 % et la précision Best-of-N de 9,0 % après optimisation sur les modèles Qwen2.5-Instruct, surpassant les modèles de taille similaire Qwen-Coder, DeepSeek-Coder et Seed-Coder. Ils s'étendent naturellement à des tâches en aval telles que la mise à l'échelle au moment des tests et le codage agentique, obtenant une amélioration de 8,1 % par rapport au modèle de base. Pour le modèle long-CoT, notre ReasonFlux-Coder-4B surpasse systématiquement Qwen3-4B tout en atteignant une efficacité d'inférence de 64,8 % dans la génération de tests unitaires. Notamment, nous constatons également que notre modèle peut servir de modèle de récompense efficace pour l'apprentissage par renforcement sur les modèles de base. Projet : https://github.com/Gen-Verse/CURE
Les récentes avancées dans le domaine du contenu généré par l'intelligence artificielle (AIGC) ont considérablement accéléré la production d'animations. Pour créer des animations captivantes, il est essentiel de générer des séquences vidéo multi-plans cohérentes, accompagnées de scripts narratifs et de références de personnages. Cependant, les ensembles de données publics existants se concentrent principalement sur des scénarios du monde réel avec des descriptions globales, et manquent d'images de référence pour guider de manière cohérente les personnages. Pour combler cette lacune, nous présentons AnimeShooter, un ensemble de données d'animation multi-plans guidé par des références. AnimeShooter propose des annotations hiérarchiques complètes et une forte cohérence visuelle entre les plans grâce à un pipeline automatisé. Les annotations au niveau de l'histoire fournissent une vue d'ensemble du récit, incluant la trame narrative, les scènes clés et les profils des personnages principaux avec des images de référence, tandis que les annotations au niveau des plans décomposent l'histoire en plans consécutifs, chacun annoté avec la scène, les personnages, et des légendes narratives et descriptives visuelles. De plus, un sous-ensemble dédié, AnimeShooter-audio, propose des pistes audio synchronisées pour chaque plan, ainsi que des descriptions audio et des sources sonores. Pour démontrer l'efficacité d'AnimeShooter et établir une référence pour la tâche de génération de vidéos multi-plans guidée par des références, nous introduisons AnimeShooterGen, qui exploite des modèles de langage multimodaux de grande taille (MLLMs) et des modèles de diffusion vidéo. L'image de référence et les plans précédemment générés sont d'abord traités par le MLLM pour produire des représentations tenant compte à la fois de la référence et du contexte, qui sont ensuite utilisées comme condition pour le modèle de diffusion afin de décoder le plan suivant. Les résultats expérimentaux montrent que le modèle entraîné sur AnimeShooter atteint une cohérence visuelle inter-plans supérieure et une adhésion aux directives visuelles de référence, ce qui met en valeur l'utilité de notre ensemble de données pour la génération de vidéos animées cohérentes.
Nous introduisons la synthèse d'images à résolution native, un nouveau paradigme de modélisation générative permettant la synthèse d'images à des résolutions et ratios d'aspect arbitraires. Cette approche surmonte les limitations des méthodes conventionnelles basées sur des images carrées à résolution fixe en gérant nativement des tokens visuels de longueur variable, un défi majeur pour les techniques traditionnelles. À cette fin, nous présentons le Transformer de diffusion à résolution native (NiT), une architecture conçue pour modéliser explicitement les variations de résolution et de ratio d'aspect dans son processus de débruitage. Libéré des contraintes des formats fixes, NiT apprend les distributions visuelles intrinsèques à partir d'images couvrant une large gamme de résolutions et de ratios d'aspect. Notamment, un seul modèle NiT atteint simultanément des performances de pointe sur les benchmarks ImageNet-256x256 et 512x512. De manière surprenante, à l'instar des capacités robustes de généralisation zero-shot observées dans les grands modèles de langage avancés, NiT, entraîné uniquement sur ImageNet, démontre d'excellentes performances de généralisation zero-shot. Il génère avec succès des images haute fidélité à des résolutions inédites (par exemple, 1536 x 1536) et des ratios d'aspect variés (par exemple, 16:9, 3:1, 4:3), comme illustré dans la Figure 1. Ces résultats indiquent le potentiel significatif de la modélisation à résolution native en tant que pont entre la modélisation générative visuelle et les méthodologies avancées des grands modèles de langage.
La génération de vidéos longues a suscité un intérêt croissant en raison de ses applications étendues dans des domaines tels que le divertissement et la simulation. Malgré les avancées, la synthèse de séquences longues, cohérentes temporellement et visuellement captivantes, reste un défi de taille. Les approches conventionnelles génèrent souvent des vidéos longues en produisant et en concaténant séquentiellement de courts clips, ou en générant des images clés puis en interpolant les images intermédiaires de manière hiérarchique. Cependant, ces méthodes rencontrent encore des difficultés significatives, entraînant des problèmes tels que des répétitions temporelles ou des transitions peu naturelles. Dans cet article, nous revisitons le pipeline hiérarchique de génération de vidéos longues et introduisons LumosFlow, un cadre qui intègre explicitement un guidage du mouvement. Plus précisément, nous utilisons d'abord le Large Motion Text-to-Video Diffusion Model (LMTV-DM) pour générer des images clés avec des intervalles de mouvement plus grands, assurant ainsi une diversité de contenu dans les vidéos longues générées. Face à la complexité de l'interpolation des transitions contextuelles entre les images clés, nous décomposons ensuite l'interpolation des images intermédiaires en génération de mouvement et raffinement post-hoc. Pour chaque paire d'images clés, le Latent Optical Flow Diffusion Model (LOF-DM) synthétise des flux optiques complexes et à grand mouvement, tandis que MotionControlNet affine ensuite les résultats déformés pour améliorer la qualité et guider la génération des images intermédiaires. Par rapport à l'interpolation traditionnelle d'images vidéo, nous atteignons une interpolation de 15x, garantissant un mouvement raisonnable et continu entre les images adjacentes. Les expériences montrent que notre méthode peut générer des vidéos longues avec un mouvement et une apparence cohérents. Le code et les modèles seront rendus publics après acceptation. Notre page de projet : https://jiahaochen1.github.io/LumosFlow/
Inspiré par le mécanisme d'apprentissage en contexte des grands modèles de langage (LLMs), un nouveau paradigme d'édition d'images généralisable basée sur des prompts visuels est en train d'émerger. Les méthodes existantes à référence unique se concentrent généralement sur des ajustements de style ou d'apparence et peinent à réaliser des transformations non rigides. Pour surmonter ces limitations, nous proposons d'exploiter des paires d'images source-cible afin d'extraire et de transférer une intention d'édition consciente du contenu vers de nouvelles images requêtes. À cette fin, nous introduisons RelationAdapter, un module léger qui permet aux modèles basés sur les Transformers de Diffusion (DiT) de capturer et d'appliquer efficacement des transformations visuelles à partir d'exemples minimaux. Nous présentons également Relation252K, un ensemble de données complet comprenant 218 tâches d'édition variées, pour évaluer la généralisation et l'adaptabilité des modèles dans des scénarios pilotés par des prompts visuels. Les expériences sur Relation252K montrent que RelationAdapter améliore significativement la capacité du modèle à comprendre et à transférer l'intention d'édition, entraînant des gains notables en qualité de génération et en performance globale d'édition.
Les modèles de diffusion ont obtenu des résultats remarquables en synthèse vidéo, mais nécessitent des étapes itératives de débruitage, entraînant une surcharge computationnelle importante. Les modèles de cohérence ont fait des progrès significatifs pour accélérer les modèles de diffusion. Cependant, leur application directe aux modèles de diffusion vidéo entraîne souvent une dégradation sévère de la cohérence temporelle et des détails d'apparence. Dans cet article, en analysant la dynamique d'apprentissage des modèles de cohérence, nous identifions un conflit clé dans la dynamique d'apprentissage pendant le processus de distillation : il existe une divergence significative dans les gradients d'optimisation et les contributions de la perte à travers les différents pas de temps. Cette divergence empêche le modèle étudiant distillé d'atteindre un état optimal, conduisant à une cohérence temporelle compromise et à une dégradation des détails d'apparence. Pour résoudre ce problème, nous proposons un modèle de cohérence à double expert paramétriquement efficace (DCM), où un expert sémantique se concentre sur l'apprentissage de la disposition sémantique et du mouvement, tandis qu'un expert de détails se spécialise dans le raffinement des détails fins. De plus, nous introduisons une perte de cohérence temporelle pour améliorer la cohérence du mouvement pour l'expert sémantique et appliquons une perte GAN et de correspondance de caractéristiques pour améliorer la qualité de synthèse de l'expert de détails. Notre approche atteint une qualité visuelle de pointe avec un nombre d'étapes d'échantillonnage significativement réduit, démontrant l'efficacité de la spécialisation des experts dans la distillation des modèles de diffusion vidéo. Notre code et nos modèles sont disponibles à l'adresse https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.
Les modèles de diffusion texte-vidéo sont notoirement limités dans leur capacité à modéliser les aspects temporels tels que le mouvement, la physique et les interactions dynamiques. Les approches existantes tentent de pallier cette limitation en réentraînant le modèle ou en introduisant des signaux de conditionnement externes pour imposer une cohérence temporelle. Dans ce travail, nous explorons si une représentation temporelle significative peut être extraite directement des prédictions d'un modèle pré-entraîné, sans aucun entraînement supplémentaire ni entrées auxiliaires. Nous présentons FlowMo, une nouvelle méthode d'orientation sans entraînement qui améliore la cohérence du mouvement en utilisant uniquement les prédictions du modèle à chaque étape de diffusion. FlowMo dérive d'abord une représentation temporelle débarrassée des aspects d'apparence en mesurant la distance entre les latents correspondant à des images consécutives. Cela met en évidence la structure temporelle implicite prédite par le modèle. Il estime ensuite la cohérence du mouvement en mesurant la variance par patchs sur la dimension temporelle et guide le modèle pour réduire dynamiquement cette variance pendant l'échantillonnage. Des expériences approfondies sur plusieurs modèles texte-vidéo démontrent que FlowMo améliore significativement la cohérence du mouvement sans sacrifier la qualité visuelle ou l'alignement avec l'invite, offrant ainsi une solution plug-and-play efficace pour améliorer la fidélité temporelle des modèles de diffusion vidéo pré-entraînés.
Les ensembles de données de haute qualité sont fondamentaux pour l'entraînement et l'évaluation des modèles d'apprentissage automatique, mais leur création—en particulier avec des annotations humaines précises—reste un défi majeur. De nombreuses soumissions d'articles sur les ensembles de données manquent d'originalité, de diversité ou de contrôle qualité rigoureux, et ces lacunes sont souvent négligées lors de l'examen par les pairs. Les soumissions omettent également fréquemment des détails essentiels sur la construction et les propriétés des ensembles de données. Bien que des outils existants tels que les fiches techniques visent à promouvoir la transparence, ils sont largement descriptifs et ne fournissent pas de méthodes standardisées et mesurables pour évaluer la qualité des données. De même, les exigences en matière de métadonnées lors des conférences favorisent la responsabilité, mais sont appliquées de manière incohérente. Pour remédier à ces limitations, cet article de position plaide pour l'intégration de métriques d'évaluation systématiques et basées sur des grilles dans le processus d'examen des ensembles de données—en particulier à mesure que les volumes de soumissions continuent d'augmenter. Nous explorons également des méthodes évolutives et rentables pour la génération de données synthétiques, y compris des outils dédiés et des approches utilisant des LLM comme juges, afin de soutenir une évaluation plus efficace. En tant qu'appel à l'action, nous introduisons DataRubrics, un cadre structuré pour évaluer la qualité des ensembles de données générés par des humains et des modèles. Tirant parti des avancées récentes dans l'évaluation basée sur les LLM, DataRubrics offre une solution reproductible, évolutive et actionnable pour l'évaluation de la qualité des ensembles de données, permettant aux auteurs et aux examinateurs de maintenir des normes plus élevées dans la recherche centrée sur les données. Nous publions également du code pour soutenir la reproductibilité des évaluations basées sur les LLM à l'adresse https://github.com/datarubrics/datarubrics.
Les techniques de diffusion vidéo ont considérablement progressé ces dernières années ; cependant, elles peinent à générer des images réalistes d'accidents de voiture en raison de la rareté des événements accidentels dans la plupart des ensembles de données de conduite. L'amélioration de la sécurité routière nécessite des simulations d'accidents réalistes et contrôlables. Pour résoudre ce problème, nous proposons Ctrl-Crash, un modèle de génération de vidéos d'accidents de voiture contrôlable qui s'appuie sur des signaux tels que les boîtes englobantes, les types d'accidents et une image initiale. Notre approche permet la génération de scénarios contrefactuels où de légères variations dans les entrées peuvent conduire à des résultats d'accidents radicalement différents. Pour permettre un contrôle précis lors de l'inférence, nous utilisons une guidance sans classifieur avec des échelles réglables indépendamment pour chaque signal de conditionnement. Ctrl-Crash atteint des performances de pointe sur les métriques quantitatives de qualité vidéo (par exemple, FVD et JEDi) et sur les évaluations qualitatives basées sur le jugement humain concernant le réalisme physique et la qualité vidéo, comparé aux méthodes précédentes basées sur la diffusion.
La génération de code avec des modèles de langage à grande échelle (LLMs), souvent appelée *vibe coding*, est de plus en plus adoptée en production, mais elle ne parvient pas à garantir la qualité du code, notamment en matière de sécurité (par exemple, les vulnérabilités d'injection SQL) et de maintenabilité (par exemple, l'absence d'annotations de type). Les méthodes existantes, telles que le fine-tuning supervisé et le post-traitement basé sur des règles, reposent sur des annotations laborieuses ou des heuristiques fragiles, limitant ainsi leur évolutivité et leur efficacité. Nous proposons REAL, un cadre d'apprentissage par renforcement qui incite les LLMs à générer du code de qualité production en utilisant des retours guidés par l'analyse de programmes. Plus précisément, REAL intègre deux signaux automatisés : (1) l'analyse de programmes détectant des défauts de sécurité ou de maintenabilité, et (2) les tests unitaires assurant la correction fonctionnelle. Contrairement aux travaux précédents, notre cadre est indépendant des prompts et ne nécessite pas de références, permettant une supervision évolutive sans intervention manuelle. Les expériences menées sur plusieurs jeux de données et échelles de modèles montrent que REAL surpasse les méthodes de pointe dans l'évaluation simultanée de la fonctionnalité et de la qualité du code. Notre travail comble le fossé entre le prototypage rapide et le code prêt pour la production, permettant aux LLMs de concilier vitesse et qualité.
La distillation de connaissances (KD) est un cadre largement utilisé pour entraîner des modèles compacts et spécifiques à une tâche en exploitant les connaissances des modèles enseignants. Cependant, son application à l'apprentissage actif (AL), qui vise à minimiser les coûts d'annotation par une sélection itérative d'échantillons, reste peu explorée. Cet écart découle du fait que la KD suppose généralement un accès à des données étiquetées suffisantes, alors que l'AL opère dans des scénarios de pénurie de données où les modèles enseignants spécifiques à la tâche sont souvent indisponibles. Dans cet article, nous présentons ActiveKD, un cadre qui intègre l'AL à la KD en exploitant les capacités zero-shot et few-shot des grands modèles vision-langage (VLMs). Un aspect clé d'ActiveKD est le biais de prédiction structuré des VLMs — c'est-à-dire que leurs prédictions forment des clusters dans l'espace des probabilités. Nous considérons cette structure comme un biais inductif du modèle enseignant, capturant des motifs de sortie généralisables bénéfiques à l'apprentissage de l'élève. Pour exploiter ce biais, nous proposons Probabilistic CoreSet (PCoreSet), une stratégie de sélection qui maximise la couverture dans l'espace des probabilités plutôt que dans l'espace des caractéristiques. PCoreSet sélectionne stratégiquement des échantillons non étiquetés catégoriquement diversifiés, facilitant un transfert plus efficace des connaissances de l'enseignant sous des budgets d'annotation limités. Les évaluations sur 11 ensembles de données montrent que PCoreSet surpasse systématiquement les méthodes de sélection existantes dans le cadre d'ActiveKD, faisant progresser la recherche à l'intersection de l'AL et de la KD.
Les grands modèles de langage deviennent rapidement la base d'agents intelligents capables d'utiliser des outils. Cependant, l'entraînement de tels agents est complexe, car il nécessite la création et l'annotation par des humains d'un ensemble diversifié de tâches, d'outils et de critères d'évaluation. Dans cet article, nous proposons le cadre Self-Challenging pour entraîner un agent sur des tâches de haute qualité générées par lui-même. L'agent joue d'abord le rôle de challenger et génère une tâche après avoir interagi avec les outils donnés. Les tâches prennent la forme d'une nouvelle classe générale de problèmes appelée Code-as-Task, définie par une instruction, une fonction de vérification, ainsi que des cas de solution et d'échec qui servent de tests, permettant de filtrer uniquement les tâches de haute qualité. L'agent endosse ensuite le rôle d'exécuteur et s'entraîne sur ces tâches en utilisant l'apprentissage par renforcement, avec les retours d'évaluation comme récompense. L'évaluation sur deux benchmarks existants d'agents multi-tours utilisant des outils, M3ToolEval et TauBench, montre que le cadre Self-Challenging permet une amélioration de plus du double sur Llama-3.1-8B-Instruct, malgré l'utilisation de données d'entraînement uniquement auto-générées.
Nous présentons MoCA-Video (Motion-Aware Concept Alignment in Video), un cadre sans apprentissage visant à combler l'écart entre le mélange sémantique dans le domaine des images et celui des vidéos. Étant donné une vidéo générée et une image de référence fournie par l'utilisateur, MoCA-Video injecte les caractéristiques sémantiques de l'image de référence dans un objet spécifique de la vidéo, tout en préservant le mouvement original et le contexte visuel. Notre approche exploite un plan de débruitage diagonal et une segmentation indépendante des classes pour détecter et suivre les objets dans l'espace latent, permettant un contrôle précis de l'emplacement spatial des objets fusionnés. Pour assurer la cohérence temporelle, nous intégrons des corrections sémantiques basées sur la quantité de mouvement et une stabilisation du bruit résiduel gamma pour des transitions fluides entre les images. Nous évaluons les performances de MoCA en utilisant les métriques standards SSIM, LPIPS au niveau de l'image, LPIPS temporel, et introduisons une nouvelle métrique, CASS (Conceptual Alignment Shift Score), pour évaluer la cohérence et l'efficacité des décalages visuels entre l'invite source et les images vidéo modifiées. En utilisant un ensemble de données auto-construit, MoCA-Video surpasse les références actuelles, obtenant une cohérence spatiale supérieure, un mouvement cohérent et un score CASS significativement plus élevé, malgré l'absence d'apprentissage ou de réglage fin. MoCA-Video démontre que la manipulation structurée dans la trajectoire du bruit de diffusion permet une synthèse vidéo contrôlée et de haute qualité.
L'acquisition de données de simulation robotique réalistes par téléopération est notoirement chronophage et laborieuse. Récemment, les modèles génératifs pilotés par l'action ont connu une adoption généralisée dans l'apprentissage et la simulation robotiques, car ils éliminent les problèmes de sécurité et réduisent les efforts de maintenance. Cependant, les séquences d'actions utilisées dans ces méthodes entraînent souvent une précision de contrôle limitée et une mauvaise généralisation en raison de leur alignement globalement grossier. Pour surmonter ces limitations, nous proposons ORV, un cadre de génération de vidéos robotiques centré sur l'occupation, qui utilise des séquences d'occupation sémantique 4D comme représentation fine pour fournir un guidage sémantique et géométrique plus précis lors de la génération de vidéos. En exploitant des représentations basées sur l'occupation, ORV permet une traduction fluide des données de simulation en vidéos robotiques photoréalistes, tout en garantissant une cohérence temporelle élevée et une contrôlabilité précise. De plus, notre cadre prend en charge la génération simultanée de vidéos multi-vues d'opérations de préhension robotique - une capacité essentielle pour les tâches d'apprentissage robotique en aval. Les résultats expérimentaux approfondis démontrent qu'ORV surpasse systématiquement les méthodes de référence existantes sur divers ensembles de données et sous-tâches. Démo, Code et Modèle : https://orangesodahub.github.io/ORV
La vitesse de génération des LLM est limitée par le décodage autorégressif, où les tokens sont prédits séquentiellement un par un. Alternativement, les modèles de langage de grande taille par diffusion (dLLM) permettent théoriquement une génération parallèle de tokens, mais en pratique peinent à atteindre la vitesse des modèles autorégressifs sans sacrifier significativement la qualité. Nous introduisons donc le décodage parallèle adaptatif (APD), une méthode novatrice qui ajuste dynamiquement le nombre de tokens échantillonnés en parallèle. Nous y parvenons en définissant un mélange multiplicatif entre les probabilités marginales du dLLM et la probabilité conjointe des séquences sous un petit modèle autorégressif auxiliaire. Cela inverse la configuration standard du décodage spéculatif, où l'objectif est d'échantillonner à partir d'un vérificateur autorégressif de grande taille en proposant des séquences à partir d'un modèle plus petit. Nous optimisons en outre l'APD en activant la mise en cache KV et en limitant la taille de l'entrée masquée. Au total, notre méthode propose trois paramètres ajustables pour équilibrer de manière flexible le débit et la qualité. Nous montrons que l'APD offre un débit nettement supérieur avec des dégradations minimes de la qualité sur les benchmarks en aval.
Les approches actuelles d'auto-correction dans le domaine text-to-SQL rencontrent deux limitations critiques : 1) Les méthodes conventionnelles d'auto-correction reposent sur des appels récursifs de LLMs (Large Language Models), entraînant une surcharge computationnelle multiplicative, et 2) Les LLMs peinent à mettre en œuvre une détection et une correction efficaces des erreurs pour les requêtes SQL déclaratives, car ils ne parviennent pas à démontrer le chemin de raisonnement sous-jacent. Dans ce travail, nous proposons SHARE, un assistant de correction hiérarchique basé sur des SLMs (Small Language Models) qui permet aux LLMs de réaliser une localisation des erreurs plus précise et une correction plus efficace. SHARE orchestre trois SLMs spécialisés dans un pipeline séquentiel, où il transforme d'abord les requêtes SQL déclaratives en trajectoires d'actions étape par étape révélant le raisonnement sous-jacent, suivi d'un affinement granulaire en deux phases. Nous proposons également une nouvelle stratégie hiérarchique d'auto-évolution pour un entraînement efficace en termes de données. Les résultats expérimentaux démontrent que SHARE améliore efficacement les capacités d'auto-correction tout en se montrant robuste avec divers LLMs. De plus, notre analyse approfondie montre que SHARE maintient des performances solides même dans des contextes d'entraînement à faibles ressources, ce qui est particulièrement précieux pour les applications text-to-SQL soumises à des contraintes de confidentialité des données.
Les visualisations jouent un rôle crucial dans la communication efficace des concepts et des informations. Les récents progrès en matière de raisonnement et de génération augmentée par la récupération ont permis aux modèles de langage de grande envergure (LLMs) de mener des recherches approfondies et de générer des rapports complets. Malgré ces avancées, les cadres de recherche approfondie existants se concentrent principalement sur la génération de contenu textuel uniquement, laissant la génération automatisée de textes et de visualisations entrelacés peu explorée. Cette nouvelle tâche pose des défis majeurs dans la conception de visualisations informatives et leur intégration efficace avec des rapports textuels. Pour relever ces défis, nous proposons la Description Formelle de Visualisation (FDV), une représentation textuelle structurée de graphiques qui permet aux LLMs d'apprendre et de générer des visualisations diverses et de haute qualité. En s'appuyant sur cette représentation, nous introduisons Multimodal DeepResearcher, un cadre agentique qui décompose la tâche en quatre étapes : (1) recherche, (2) textualisation de rapport exemplaire, (3) planification, et (4) génération de rapports multimodaux. Pour l'évaluation des rapports multimodaux générés, nous développons MultimodalReportBench, qui contient 100 sujets divers servant d'entrées ainsi que 5 métriques dédiées. Des expériences approfondies à travers les modèles et les méthodes d'évaluation démontrent l'efficacité de Multimodal DeepResearcher. Notamment, en utilisant le même modèle Claude 3.7 Sonnet, Multimodal DeepResearcher atteint un taux de réussite global de 82 % par rapport à la méthode de référence.
Avec la sortie de R1, un modèle de raisonnement à grande échelle (LRM) accessible au public, les chercheurs entraînent couramment de nouveaux LRM en formant des modèles de langage sur les longues chaînes de raisonnement (CoT) de R1. Bien que des travaux antérieurs montrent que les capacités des LRM peuvent être reproduites par distillation directe, la dépendance continue aux modèles existants (par exemple, R1) reste une limitation critique pour l'avancement du domaine. Comme première étape vers le développement indépendant de LRM, cet article explore la possibilité de construire un ensemble de données de longues CoT avec des modèles de langage (LLM) qui ne sont pas entraînés pour une mise à l'échelle au moment de l'inférence. À cette fin, nous présentons la Long CoT Collection, un ensemble de données de 100 000 raisonnements CoT annotés à l'aide de LLM à courtes CoT existants. Nous développons un pipeline qui intègre les nouvelles stratégies de raisonnement de o1 dans des LLM à courtes CoT, leur permettant de raisonner plus longtemps et introduisant une contrôlabilité sur le budget de pensée pour mieux gérer le problème de surréflexion. Nos analyses approfondies valident que notre ensemble de données atteint une qualité comparable à—ou légèrement inférieure à—celle de R1. De plus, nos expériences démontrent que l'entraînement sur notre ensemble de données renforce non seulement les compétences générales de raisonnement, mais fournit également une base solide pour l'apprentissage par renforcement—les modèles initialisés sur nos données obtiennent des gains 2 à 3 fois plus importants avec RLVR.
Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont considérablement amélioré leurs capacités de raisonnement, en particulier sur des problèmes mathématiques et logiques ayant des réponses vérifiables, grâce à des techniques telles que le fine-tuning supervisé (SFT) et l'apprentissage par renforcement (RL). Des recherches antérieures indiquent que le RL internalise efficacement les stratégies de recherche, permettant un raisonnement en chaîne de pensée (CoT) étendue, avec le retour en arrière (backtracking) émergeant naturellement comme une capacité apprise. Cependant, les avantages précis du retour en arrière, notamment son impact significatif sur l'amélioration du raisonnement et l'étendue optimale de son utilisation, restent mal compris. Dans ce travail, nous étudions systématiquement les dynamiques entre le SFT et le RL sur huit tâches de raisonnement : Countdown, Sudoku, Arc 1D, Géométrie, Rotation de Cube Coloré, Fonctions de Liste, Énigmes Zebra et Auto-Référence. Nos résultats montrent que les courtes séquences CoT utilisées dans le SFT comme amorce contribuent modérément à l'entraînement RL, comparé à un démarrage à froid du RL ; cependant, cette contribution diminue lorsque les tâches deviennent de plus en plus difficiles. Motivés par cette observation, nous construisons des ensembles de données synthétiques variant systématiquement dans le nombre d'étapes de retour en arrière et menons des expériences contrôlées pour isoler l'influence soit de la justesse (contenu) soit de la structure (c'est-à-dire la fréquence de retour en arrière). Nous constatons que (1) des CoT plus longues avec des retours en arrière induisent généralement un meilleur et plus stable entraînement RL, (2) des problèmes plus complexes avec un espace de recherche plus large tendent à nécessiter un nombre plus élevé de retours en arrière lors de la phase SFT. De plus, nous démontrons à travers des expériences sur des données distillées que l'entraînement RL est largement insensible à la justesse des longues séquences CoT, suggérant que le RL privilégie les motifs structurels plutôt que la justesse du contenu. Collectivement, nos résultats offrent des perspectives pratiques pour concevoir des stratégies d'entraînement optimales afin de développer efficacement le raisonnement dans les LLMs.
La compréhension des vidéos longues présente des défis importants en raison de la complexité temporelle-spatiale étendue et de la difficulté à répondre à des questions dans de tels contextes prolongés. Bien que les modèles de langage de grande taille (LLMs) aient démontré des avancées considérables dans les capacités d'analyse vidéo et la gestion de contextes longs, ils continuent de présenter des limites lors du traitement de vidéos d'une heure riches en informations. Pour surmonter ces limitations, nous proposons l'agent Deep Video Discovery, qui exploite une stratégie de recherche agentique sur des clips vidéo segmentés. Contrairement aux agents vidéo précédents qui concevaient manuellement un flux de travail rigide, notre approche met l'accent sur la nature autonome des agents. En fournissant un ensemble d'outils centrés sur la recherche dans une base de données vidéo multi-granulaire, notre agent DVD exploite la capacité de raisonnement avancée du LLM pour planifier en fonction de son état d'observation actuel, sélectionne stratégiquement des outils, formule des paramètres appropriés pour les actions, et affine itérativement son raisonnement interne à la lumière des informations recueillies. Nous effectuons une évaluation approfondie sur plusieurs benchmarks de compréhension de vidéos longues, démontrant l'avantage de la conception globale du système. Notre agent DVD atteint des performances de pointe, surpassant significativement les travaux précédents avec une large marge sur le dataset difficile LVBench. Des études d'ablation complètes et des analyses approfondies des outils sont également fournies, offrant des insights pour faire progresser davantage les agents intelligents adaptés aux tâches de compréhension de vidéos longues. Le code sera publié ultérieurement.
La recherche sémantique est cruciale pour les applications modernes, mais reste sous-explorée dans les recherches actuelles. Les jeux de données existants se limitent à des langues uniques, des images uniques ou des conditions de recherche singulières, échouant souvent à exploiter pleinement la capacité expressive des informations visuelles, comme en témoigne le maintien des performances lorsque les images sont remplacées par des légendes. Cependant, les scénarios pratiques de recherche impliquent fréquemment des requêtes multi-conditions entrelacées avec plusieurs images. Par conséquent, cet article présente MERIT, le premier jeu de données multilingue pour la recherche sémantique multi-conditions entrelacées, comprenant 320 000 requêtes avec 135 000 produits dans 5 langues, couvrant 7 catégories de produits distinctes. Des expériences approfondies sur MERIT identifient une limitation des modèles existants : se concentrer uniquement sur les informations sémantiques globales tout en négligeant les éléments conditionnels spécifiques dans les requêtes. En conséquence, nous proposons Coral, un nouveau cadre de fine-tuning qui adapte les MLLM pré-entraînés en intégrant une reconstruction d'embedding pour préserver les éléments conditionnels fins et un apprentissage contrastif pour extraire une sémantique globale complète. Les expériences démontrent que Coral obtient une amélioration de performance de 45,9 % par rapport aux approches conventionnelles sur MERIT, avec de solides capacités de généralisation validées sur 8 benchmarks de recherche établis. Collectivement, nos contributions - un nouveau jeu de données, l'identification de limitations critiques dans les approches existantes et un cadre de fine-tuning innovant - établissent une base pour les recherches futures dans la recherche sémantique multi-conditions entrelacées.
Le pré-entraînement contrastif texte-image aligne les caractéristiques des paires texte-image dans un espace latent commun via des encodeurs distincts pour chaque modalité. Bien que cette approche obtienne des performances impressionnantes dans plusieurs tâches zero-shot, elle ne peut pas gérer nativement des entrées multimodales, c'est-à-dire encoder une image et un texte en un seul vecteur de caractéristiques. Pour y remédier, il est courant d'utiliser des modules supplémentaires pour fusionner les caractéristiques extraites par les encodeurs unimodaux. Dans ce travail, nous présentons FuseLIP, une architecture alternative pour l'embedding multimodal. En tirant parti des progrès récents dans les tokenizers d'images discrets, nous proposons d'utiliser un seul modèle de transformateur qui opère sur un vocabulaire étendu de tokens texte et image. Cette approche de fusion précoce permet aux différentes modalités d'interagir à chaque niveau d'encodage et d'obtenir des représentations plus riches par rapport à la fusion tardive classique. Nous collectons de nouveaux ensembles de données pour le pré-entraînement et l'évaluation multimodaux, en concevant des tâches complexes pour les modèles d'encodeurs multimodaux. Nous montrons que FuseLIP surpasse d'autres approches dans des tâches d'embedding multimodal telles que le VQA et la recherche de transformation d'image guidée par texte, tout en étant comparable aux modèles de référence dans les tâches unimodales.
Les modèles de langage de grande taille (LLMs) ont récemment réalisé des progrès remarquables en exploitant l'apprentissage par renforcement et des techniques étendues de chaîne de pensée (Chain-of-Thought, CoT). Cependant, le défi de réaliser un raisonnement linguistique efficace—en particulier lors de l'inférence avec des sorties extrêmement longues—a attiré une attention croissante de la communauté de recherche. Dans ce travail, nous proposons un pipeline d'entraînement dynamique basé sur des ratios qui ne repose pas sur des annotations de données sophistiquées ou sur une interpolation entre plusieurs modèles. Nous équilibrons continuellement les poids entre les données de Système-1 et de Système-2 du modèle pour éliminer les processus de raisonnement redondants tout en préservant la capacité de raisonnement du modèle. Nous validons notre approche sur les modèles DeepSeek-R1-Distill-7B et DeepSeek-R1-Distill-14B ainsi que sur un ensemble diversifié de benchmarks avec des niveaux de difficulté variés. Notre méthode réduit significativement le nombre de tokens de sortie de près de 40 % tout en maintenant la précision du raisonnement. Notre code et nos données seront bientôt disponibles.
Les récentes avancées dans les modèles de langage de grande envergure (LLMs) ont conduit au développement de nouveaux benchmarks pour évaluer leurs performances dans le domaine financier. Cependant, les benchmarks financiers actuels reposent souvent sur des articles de presse, des rapports de résultats ou des annonces, ce qui rend difficile la capture des dynamiques réelles des réunions financières. Pour combler cette lacune, nous proposons un nouveau benchmark appelé M^3FinMeeting, un ensemble de données multilingue, multisectoriel et multitâche conçu pour la compréhension des réunions financières. Premièrement, M^3FinMeeting prend en charge l'anglais, le chinois et le japonais, améliorant ainsi la compréhension des discussions financières dans divers contextes linguistiques. Deuxièmement, il englobe divers secteurs industriels définis par la norme de classification mondiale des industries (GICS), garantissant que le benchmark couvre un large éventail d'activités financières. Enfin, M^3FinMeeting inclut trois tâches : la synthèse, l'extraction de paires question-réponse (QA) et la réponse à des questions, facilitant une évaluation plus réaliste et complète de la compréhension. Les résultats expérimentaux obtenus avec sept LLMs populaires révèlent que même les modèles de contexte long les plus avancés ont une marge d'amélioration significative, démontrant l'efficacité de M^3FinMeeting en tant que benchmark pour évaluer les compétences de compréhension des réunions financières par les LLMs.
Les paradigmes actuels de réglage fin par renforcement (RFT) pour les modèles de langage de grande taille (LLMs) souffrent d'une inefficacité d'échantillonnage due à l'exposition redondante de requêtes identiques sous un échantillonnage uniforme des données. Bien que des travaux antérieurs aient exploré l'apprentissage curriculaire via des métriques heuristiques de difficulté, ces stratégies présentent des limites en négligeant les signaux d'apprentissage intrinsèques générés par le modèle lui-même, conduisant ainsi à des régimes d'entraînement sous-optimaux. Dans cet article, nous identifions un signal inhérent au modèle, appelé concentration angulaire, qui reflète efficacement la capacité d'un LLM à apprendre à partir de données spécifiques. Nous démontrons théoriquement et empiriquement une corrélation entre la distribution angulaire des vecteurs d'état cachés des tokens et le gradient résultant, révélant une préférence d'apprentissage pour les données présentant une concentration angulaire plus élevée. Inspirés par cette découverte, nous proposons GAIN-RL, un cadre de renforcement guidé par gradient et informé par l'angle. En exploitant le signal de concentration angulaire intrinsèque du modèle, GAIN-RL sélectionne dynamiquement les données d'entraînement à chaque époque, garantissant des mises à jour de gradient constamment impactantes et améliorant ainsi significativement l'efficacité globale de l'entraînement. Les évaluations empiriques montrent que GAIN-RL (GRPO) atteint une accélération de plus de 2,5 fois l'efficacité d'entraînement sur diverses tâches mathématiques et de codage, ainsi que sur différentes échelles de modèles. De plus, l'échantillonnage efficace de GAIN-RL (GRPO) permet un entraînement économe en données, obtenant de meilleures performances avec la moitié des données d'origine par rapport à GRPO classique avec l'ensemble des données d'entraînement. Le code est disponible à l'adresse suivante : https://github.com/wangqinsi1/GAINRL/tree/main.
La culture est un domaine riche et dynamique qui évolue à la fois dans l'espace et dans le temps. Cependant, les études existantes sur la compréhension culturelle à l'aide de modèles vision-langage (VLMs) mettent principalement l'accent sur la diversité géographique, négligeant souvent les dimensions temporelles critiques. Pour combler cette lacune, nous introduisons Hanfu-Bench, un nouvel ensemble de données multimodales expertisé. Le Hanfu, un vêtement traditionnel traversant les dynasties chinoises anciennes, sert de patrimoine culturel représentatif qui reflète les aspects temporels profonds de la culture chinoise tout en restant très populaire dans la société contemporaine chinoise. Hanfu-Bench comprend deux tâches principales : la compréhension visuelle culturelle et la transcréation d'images culturelles. La première tâche examine la reconnaissance des caractéristiques culturelles temporelles basée sur des entrées d'image unique ou multiple à travers des questions à choix multiples en réponse visuelle, tandis que la seconde se concentre sur la transformation des tenues traditionnelles en designs modernes à travers l'héritage d'éléments culturels et l'adaptation au contexte moderne. Notre évaluation montre que les VLMs fermés performent de manière comparable aux non-experts en compréhension visuelle culturelle mais sont en retard de 10 % par rapport aux experts humains, tandis que les VLMs ouverts sont encore plus en retard par rapport aux non-experts. Pour la tâche de transcréation, une évaluation humaine multidimensionnelle indique que le meilleur modèle n'atteint qu'un taux de réussite de 42 %. Notre benchmark fournit un banc d'essai essentiel, révélant des défis significatifs dans cette nouvelle direction de compréhension culturelle temporelle et d'adaptation créative.
Les récents progrès des modèles multi-modaux de grande taille (LMMs) ont permis un raisonnement efficace entre vision et langage, mais la capacité à comprendre le contenu vidéo reste limitée par des stratégies de sélection d'images sous-optimales. Les approches existantes reposent souvent sur des heuristiques statiques ou des modules de récupération externes pour fournir des informations sur les images aux modèles de langage vidéo (video-LLMs), ce qui peut échouer à fournir des informations pertinentes pour la requête. Dans ce travail, nous introduisons ReFoCUS (Reinforcement-guided Frame Optimization for Contextual UnderStanding), un nouveau cadre d'optimisation au niveau des images qui déplace la cible d'optimisation des réponses textuelles vers la sélection des entrées visuelles. ReFoCUS apprend une politique de sélection d'images via l'apprentissage par renforcement, en utilisant des signaux de récompense dérivés d'un LMM de référence pour refléter les préférences intrinsèques du modèle pour les images qui soutiennent le mieux les réponses temporellement ancrées. Pour explorer efficacement le vaste espace combinatoire des images, nous employons une architecture de sélection conditionnelle et autorégressive qui assure la cohérence temporelle tout en réduisant la complexité. Notre approche ne nécessite pas de supervision explicite au niveau des images et améliore de manière constante les performances de raisonnement sur plusieurs benchmarks de questions-réponses vidéo, mettant en évidence les avantages de l'alignement de la sélection d'images avec l'utilité interne du modèle.
Cet article vise à relever les défis du sous-raisonnement et du sur-raisonnement dans les longues chaînes de pensée (CoT) pour les modèles de raisonnement à grande échelle (LRMs) en introduisant les Champs de Contrôle du Raisonnement (RCF) -- une nouvelle approche au moment du test qui injecte des signaux de contrôle structurés pour guider le raisonnement selon une perspective de recherche arborescente. Les RCF permettent aux modèles d'ajuster l'effort de raisonnement en fonction des conditions de contrôle données lors de la résolution de tâches complexes. De plus, nous présentons le jeu de données Control-R-4K, qui comprend des problèmes difficiles annotés avec des processus de raisonnement détaillés et les champs de contrôle correspondants. Pour renforcer davantage le contrôle du raisonnement, nous proposons une méthode de Fine-Tuning par Distillation Conditionnelle (CDF), qui entraîne le modèle -- en particulier Control-R-32B -- à ajuster efficacement l'effort de raisonnement pendant le test. Les résultats expérimentaux sur des benchmarks tels que AIME2024 et MATH500 démontrent que notre approche atteint des performances de pointe à l'échelle 32B tout en permettant un processus de raisonnement en longue chaîne de pensée (L-CoT) contrôlable. Globalement, ce travail introduit un paradigme efficace pour un raisonnement scalable et contrôlable au moment du test.
Les méthodes d'interpolation existantes utilisent des modèles de diffusion vidéo pré-entraînés pour générer des images intermédiaires entre des images clés échantillonnées de manière éparse. En l'absence de guidage géométrique 3D, ces méthodes peinent à produire des résultats plausibles pour des mouvements humains complexes et articulés, et offrent un contrôle limité sur la dynamique synthétisée. Dans cet article, nous présentons PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), un nouveau cadre qui intègre des signaux de guidage 3D humain dans le processus de diffusion pour une Interpolation d'Images Clés Centrée sur l'Humain et Contrôlable (CHKI). Pour fournir des indices spatiaux et structurels riches pour l'interpolation, notre PoseFuse3D, un modèle de contrôle informé en 3D, intègre un nouvel encodeur SMPL-X qui transforme la géométrie et la forme 3D en un espace de conditionnement latent 2D, ainsi qu'un réseau de fusion qui intègre ces indices 3D avec des embeddings de pose 2D. Pour l'évaluation, nous construisons CHKI-Video, un nouveau jeu de données annoté avec des poses 2D et des paramètres SMPL-X 3D. Nous montrons que PoseFuse3D-KI surpasse systématiquement les modèles de référence de pointe sur CHKI-Video, avec une amélioration de 9 % en PSNR et une réduction de 38 % en LPIPS. Des ablations approfondies démontrent que notre modèle PoseFuse3D améliore la fidélité de l'interpolation.
Les complexités inhérentes de l'écriture arabe ; sa nature cursive, ses marques diacritiques (tashkeel) et sa typographie variée, posent des défis persistants pour la Reconnaissance Optique de Caractères (OCR). Nous présentons Qari-OCR, une série de modèles vision-langage dérivés de Qwen2-VL-2B-Instruct, progressivement optimisés pour l'arabe grâce à un affinage itératif sur des ensembles de données synthétiques spécialisés. Notre modèle phare, QARI v0.2, établit un nouvel état de l'art open-source avec un taux d'erreur par mot (WER) de 0,160, un taux d'erreur par caractère (CER) de 0,061 et un score BLEU de 0,737 sur des textes riches en diacritiques. Qari-OCR démontre une gestion supérieure des tashkeel, des polices variées et des mises en page de documents, ainsi qu'une performance impressionnante sur les images à basse résolution. Des explorations supplémentaires (QARI v0.3) montrent un fort potentiel pour la compréhension structurelle des documents et la reconnaissance de textes manuscrits. Ce travail apporte une amélioration notable en termes de précision et d'efficacité de l'OCR arabe, avec tous les modèles et ensembles de données publiés pour favoriser des recherches ultérieures.
Nous étudions si le succès d'un processus de Chaîne de Pensée (CoT) en zero-shot peut être prédit avant son achèvement. Nous découvrons qu'un classifieur de sondage, basé sur les représentations d'un modèle de langage (LLM), performe bien avant même qu'un seul token ne soit généré, suggérant que des informations cruciales sur le processus de raisonnement sont déjà présentes dans les représentations des étapes initiales. En revanche, un modèle de référence fort basé sur BERT, qui repose uniquement sur les tokens générés, performe moins bien, probablement parce qu'il dépend d'indices linguistiques superficiels plutôt que de dynamiques de raisonnement plus profondes. Étonnamment, l'utilisation d'étapes de raisonnement ultérieures n'améliore pas toujours la classification. Lorsque le contexte supplémentaire n'est pas utile, les représentations initiales ressemblent davantage aux représentations ultérieures, suggérant que les LLM encodent les informations clés tôt dans le processus. Cela implique que le raisonnement peut souvent s'arrêter prématurément sans perte. Pour tester cela, nous menons des expériences d'arrêt précoce, montrant que tronquer le raisonnement CoT améliore toujours les performances par rapport à l'absence totale de CoT, bien qu'un écart subsiste par rapport au raisonnement complet. Cependant, des approches comme l'apprentissage supervisé ou l'apprentissage par renforcement conçues pour raccourcir les chaînes CoT pourraient tirer parti des indications de notre classifieur pour identifier quand l'arrêt précoce est efficace. Nos résultats fournissent des insights qui pourraient soutenir de telles méthodes, aidant à optimiser l'efficacité de CoT tout en préservant ses avantages.
Les grands modèles de recommandation ont étendu les LLM (Large Language Models) en tant que puissants systèmes de recommandation via l'encodage ou la génération d'éléments, et les récentes avancées dans le raisonnement des LLM motivent simultanément l'exploration du raisonnement dans les systèmes de recommandation. Les études actuelles positionnent généralement les LLM comme des modules de raisonnement externes pour fournir une pensée auxiliaire afin d'augmenter les pipelines de recommandation conventionnels. Cependant, ces conceptions découplées sont limitées par un coût en ressources significatif et une optimisation conjointe sous-optimale. Pour résoudre ces problèmes, nous proposons \name, un modèle unifié de recommandation de grande taille doté de capacités de raisonnement intrinsèques. Initialement, nous reconceptualisons l'architecture du modèle pour faciliter un raisonnement entrelacé et une recommandation dans le processus autorégressif. Par la suite, nous proposons RecPO, un cadre d'apprentissage par renforcement correspondant qui optimise \name\ à la fois pour les capacités de raisonnement et de recommandation simultanément dans une seule mise à jour de politique ; RecPO introduit un schéma de récompense fusionné qui exploite uniquement les étiquettes de recommandation pour simuler la capacité de raisonnement, éliminant ainsi la dépendance aux annotations spécialisées de raisonnement. Les expériences sur trois ensembles de données avec diverses bases de référence vérifient l'efficacité de \name, montrant des améliorations relatives de 68,67 % en Hit@5 et de 45,21 % en NDCG@20. Le code est disponible à l'adresse https://github.com/YRYangang/RRec.
La modification d'images à l'aide d'instructions pour refléter des mouvements non rigides, des changements de point de vue de la caméra, des déformations d'objets, des articulations humaines et des interactions complexes représente un problème difficile et encore peu exploré en vision par ordinateur. Les approches et jeux de données existants se concentrent principalement sur des scènes statiques ou des transformations rigides, limitant ainsi leur capacité à gérer des modifications expressives impliquant des mouvements dynamiques. Pour combler cette lacune, nous présentons ByteMorph, un cadre complet pour la modification d'images basée sur les instructions, mettant l'accent sur les mouvements non rigides. ByteMorph comprend un jeu de données à grande échelle, ByteMorph-6M, et un modèle de référence robuste basé sur le Transformer de Diffusion (DiT), nommé ByteMorpher. ByteMorph-6M inclut plus de 6 millions de paires d'images haute résolution pour l'entraînement, ainsi qu'un benchmark d'évaluation soigneusement conçu, ByteMorph-Bench. Ces deux éléments capturent une grande variété de types de mouvements non rigides dans divers environnements, figures humaines et catégories d'objets. Le jeu de données est construit en utilisant une génération de données guidée par le mouvement, des techniques de composition en couches et un sous-titrage automatisé pour garantir la diversité, le réalisme et la cohérence sémantique. Nous menons également une évaluation approfondie des méthodes récentes de modification d'images basées sur les instructions, provenant à la fois des domaines académiques et commerciaux.
Le développement d'outils d'explicabilité efficaces pour les Transformers constitue une quête cruciale dans la recherche en apprentissage profond. L'une des approches les plus prometteuses dans ce domaine est la Propagation de Pertinence par Couches (LRP), qui propage des scores de pertinence à rebours à travers le réseau jusqu'à l'espace d'entrée en redistribuant les valeurs d'activation selon des règles prédéfinies. Cependant, les méthodes existantes basées sur la LRP pour l'explicabilité des Transformers négligent entièrement un composant critique de l'architecture des Transformers : leur encodage positionnel (PE), ce qui entraîne une violation de la propriété de conservation et la perte d'un type de pertinence important et unique, également associé aux caractéristiques structurelles et positionnelles. Pour remédier à cette limitation, nous reformulons l'espace d'entrée pour l'explicabilité des Transformers comme un ensemble de paires position-jeton. Cela nous permet de proposer des règles de LRP spécialisées et théoriquement fondées, conçues pour propager les attributions à travers diverses méthodes d'encodage positionnel, notamment l'encodage Rotary, Apprenable et Absolu. Des expériences approfondies avec des classifieurs affinés et des modèles de base en zero-shot, tels que LLaMA 3, démontrent que notre méthode surpasse significativement l'état de l'art dans les tâches d'explicabilité en vision et en traitement du langage naturel. Notre code est disponible publiquement.
L’apprentissage en contexte (In-Context Learning, ICL) est une capacité importante mais encore mal comprise des grands modèles de langage pré-entraînés (Large Language Models, LLMs). Il peut considérablement améliorer les performances sur une tâche en utilisant quelques exemples, appelés démonstrations, sans nécessiter de réglage fin. Bien qu’efficace pour les tâches de réponse à des questions, l’ICL obtient souvent des résultats inférieurs dans les tâches de génération de textes longs, comme la synthèse. Sous des hypothèses réalistes appropriées, nous montrons empiriquement et théoriquement que les démonstrations de l’ICL seules sont insuffisantes pour enseigner aux LLMs les distributions de langage et de format nécessaires à la génération. Nous plaidons pour une exposition explicite aux distributions de tâches et émettons l’hypothèse que leur définition par incitation améliore les performances du modèle. À cette fin, nous présentons LongGuide, qui génère efficacement deux flux parallèles de directives capturant les propriétés de langage et de format de la tâche : (i) les **Directives Métriques** (Metric Guidelines, MGs) qui instruisent les modèles à optimiser des métriques auto-évaluées ; et (ii) les **Directives de Contraintes de Sortie** (Output Constraint Guidelines, OCGs) qui contraignent la génération aux niveaux du token et de la phrase. LongGuide sélectionne automatiquement la meilleure combinaison de directives, améliorant les performances des LLMs open-source et propriétaires de plus de 5 % dans des configurations zero-shot et few-shot. Nous démontrons que LongGuide est généralisable, qu’il peut être appris par des modèles faibles pour améliorer des modèles forts, et qu’il s’intègre de manière synergique avec les optimiseurs automatiques d’incitations.