Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'intelligence artificielle (IA) accélère la transformation des paradigmes de la recherche scientifique, non seulement en améliorant l'efficacité de la recherche, mais aussi en stimulant l'innovation. Nous présentons NovelSeek, un cadre unifié en boucle fermée multi-agents pour mener des Recherches Scientifiques Autonomes (ASR) dans divers domaines de recherche scientifique, permettant aux chercheurs de résoudre des problèmes complexes dans ces domaines avec une rapidité et une précision sans précédent. NovelSeek met en avant trois avantages clés : 1) Évolutivité : NovelSeek a démontré sa polyvalence dans 12 tâches de recherche scientifique, capable de générer des idées innovantes pour améliorer les performances du code de référence. 2) Interactivité : NovelSeek fournit une interface pour les retours d'experts humains et l'interaction multi-agents dans des processus automatisés de bout en bout, permettant une intégration fluide des connaissances des experts du domaine. 3) Efficacité : NovelSeek a obtenu des gains de performance prometteurs dans plusieurs domaines scientifiques avec un coût en temps significativement moindre par rapport aux efforts humains. Par exemple, dans la prédiction du rendement de réaction, il est passé de 27,6 % à 35,4 % en seulement 12 heures ; dans la prédiction de l'activité des enhancers, la précision est passée de 0,52 à 0,79 avec seulement 4 heures de traitement ; et dans la segmentation sémantique 2D, la précision est passée de 78,8 % à 81,0 % en seulement 30 heures.
La capacité à suivre des instructions est essentielle pour aligner les grands modèles de langage (LLMs) avec l'intention des utilisateurs. Bien que les modèles récents axés sur le raisonnement montrent des performances impressionnantes sur des problèmes mathématiques complexes, leur aptitude à respecter des instructions en langage naturel reste peu explorée. Dans ce travail, nous introduisons MathIF, un benchmark dédié à l'évaluation du suivi d'instructions dans des tâches de raisonnement mathématique. Notre analyse empirique révèle une tension constante entre l'augmentation de la capacité de raisonnement et le maintien de la contrôlabilité, car les modèles qui raisonnent plus efficacement ont souvent du mal à se conformer aux directives des utilisateurs. Nous constatons que les modèles ajustés sur des chaînes de pensée longues distillées ou entraînés avec un apprentissage par renforcement orienté raisonnement voient souvent leur adhésion aux instructions se dégrader, en particulier lorsque la longueur de la génération augmente. De plus, nous montrons que même des interventions simples peuvent partiellement restaurer l'obéissance, bien qu'au détriment des performances de raisonnement. Ces résultats mettent en lumière une tension fondamentale dans les paradigmes actuels d'entraînement des LLMs et motivent la nécessité de modèles de raisonnement plus conscients des instructions. Nous publions le code et les données à l'adresse https://github.com/TingchenFu/MathIF.
Récemment, les grands modèles de langage (LLMs) ont démontré des capacités de raisonnement remarquables grâce à l'apprentissage par renforcement (RL) à grande échelle. Cependant, exploiter l'algorithme de RL pour renforcer le raisonnement collaboratif multi-outil efficace dans les LLMs reste un défi ouvert. Dans cet article, nous présentons Tool-Star, un framework basé sur RL conçu pour permettre aux LLMs d'invoquer de manière autonome plusieurs outils externes lors d'un raisonnement étape par étape. Tool-Star intègre six types d'outils et incorpore des conceptions systématiques à la fois dans la synthèse des données et dans l'entraînement. Pour pallier la pénurie de données d'utilisation d'outils, nous proposons un pipeline général de synthèse de données de raisonnement intégrant des outils, qui combine l'incitation intégrée d'outils avec un échantillonnage basé sur des indices pour générer automatiquement et de manière scalable des trajectoires d'utilisation d'outils. Un processus ultérieur de normalisation de la qualité et de classification sensible à la difficulté filtre les échantillons de faible qualité et organise le jeu de données du plus facile au plus difficile. De plus, nous proposons un framework d'entraînement en deux étapes pour améliorer le raisonnement collaboratif multi-outil en : (1) un fine-tuning de démarrage à froid, qui guide les LLMs à explorer des modèles de raisonnement via des retours d'invocation d'outils ; et (2) un algorithme de RL auto-critique multi-outil avec une conception hiérarchique de récompense, qui renforce la compréhension des récompenses et favorise une collaboration efficace des outils. Les analyses expérimentales sur plus de 10 benchmarks de raisonnement difficiles mettent en évidence l'efficacité et l'efficience de Tool-Star. Le code est disponible à l'adresse https://github.com/dongguanting/Tool-Star.
Le raisonnement en chaîne de pensée a considérablement amélioré les performances des grands modèles de langage (LLMs) dans divers domaines. Cependant, ce processus de raisonnement a été confiné exclusivement à l'espace textuel, limitant ainsi son efficacité dans les tâches visuellement complexes. Pour pallier cette limitation, nous introduisons le concept de raisonnement dans l'espace des pixels. Dans ce cadre novateur, les modèles vision-langage (VLMs) sont dotés d'un ensemble d'opérations de raisonnement visuel, telles que le zoom et la sélection de cadre. Ces opérations permettent aux VLMs d'inspecter, d'interroger et de déduire directement à partir de preuves visuelles, améliorant ainsi la fidélité du raisonnement pour les tâches visuelles. Cultiver de telles capacités de raisonnement dans l'espace des pixels chez les VLMs présente des défis notables, notamment la compétence initialement déséquilibrée du modèle et sa réticence à adopter les nouvelles opérations dans l'espace des pixels. Nous abordons ces défis grâce à une approche de formation en deux phases. La première phase utilise un réglage par instruction sur des traces de raisonnement synthétisées pour familiariser le modèle avec les nouvelles opérations visuelles. Ensuite, une phase d'apprentissage par renforcement (RL) exploite un schéma de récompense basé sur la curiosité pour équilibrer l'exploration entre le raisonnement dans l'espace des pixels et le raisonnement textuel. Grâce à ces opérations visuelles, les VLMs peuvent interagir avec des entrées visuelles complexes, telles que des images ou des vidéos riches en informations, pour collecter de manière proactive les informations nécessaires. Nous démontrons que cette approche améliore significativement les performances des VLMs sur divers benchmarks de raisonnement visuel. Notre modèle de 7B, \model, atteint 84\% sur V* bench, 74\% sur TallyQA-Complex, et 84\% sur InfographicsVQA, marquant ainsi la plus haute précision jamais atteinte par un modèle open-source à ce jour. Ces résultats soulignent l'importance du raisonnement dans l'espace des pixels et l'efficacité de notre cadre.
Les récents progrès dans les modèles génératifs multi-modaux ont permis des avancées significatives dans l'édition d'images basée sur des instructions. Cependant, bien que ces modèles produisent des résultats visuellement plausibles, leur capacité à effectuer des tâches d'édition basées sur le raisonnement et les connaissances reste peu explorée. Dans cet article, nous présentons KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), un benchmark diagnostique conçu pour évaluer les modèles à travers une perspective cognitivement informée. S'inspirant de la théorie éducative, KRIS-Bench catégorise les tâches d'édition selon trois types fondamentaux de connaissances : Factuelle, Conceptuelle et Procédurale. Sur la base de cette taxonomie, nous concevons 22 tâches représentatives couvrant 7 dimensions de raisonnement et publions 1 267 instances d'édition annotées de haute qualité. Pour soutenir une évaluation fine, nous proposons un protocole complet qui intègre une nouvelle métrique de Plausibilité des Connaissances, enrichie par des indices de connaissances et calibrée à travers des études humaines. Les résultats empiriques sur 10 modèles de pointe révèlent des lacunes significatives dans les performances de raisonnement, soulignant la nécessité de benchmarks centrés sur les connaissances pour faire progresser le développement de systèmes intelligents d'édition d'images.
La compréhension des vidéos longues est devenue une capacité cruciale pour des applications réelles telles que la surveillance vidéo, la synthèse de réunions, l'analyse de cours éducatifs et la diffusion sportive. Cependant, elle reste prohibitivement coûteuse en termes de calcul pour les VideoLLMs, principalement en raison de deux goulots d'étranglement : 1) le décodage séquentiel des vidéos, processus de conversion du flux binaire brut en images RGB, qui peut prendre jusqu'à une minute pour des vidéos d'une heure, et 2) le préremplissage coûteux pouvant atteindre plusieurs millions de tokens pour l'inférence des LLM, entraînant une latence élevée et une utilisation importante de la mémoire. Pour relever ces défis, nous proposons QuickVideo, une co-conception système-algorithme qui accélère considérablement la compréhension des vidéos longues pour supporter des applications en temps réel. Elle comprend trois innovations clés : QuickDecoder, un décodeur vidéo parallélisé basé sur CPU qui obtient une accélération de 2 à 3 fois en divisant les vidéos en intervalles alignés sur les images clés traités simultanément ; QuickPrefill, une méthode de préremplissage économe en mémoire utilisant l'élagage du cache KV pour supporter plus d'images avec moins de mémoire GPU ; et un schéma de chevauchement qui superpose le décodage vidéo CPU avec l'inférence GPU. Ensemble, ces composants réduisent le temps d'inférence d'une minute sur les vidéos longues, permettant une compréhension vidéo évolutive et de haute qualité même sur du matériel limité. Les expériences montrent que QuickVideo se généralise à travers les durées et les taux d'échantillonnage, rendant le traitement des vidéos longues réalisable en pratique.
Les Transformers de diffusion sont devenus la base des modèles génératifs visuels, mais leur scalabilité est limitée par le coût élevé du réglage des hyperparamètres (HP) à grande échelle. Récemment, la Paramétrisation à Mise à Jour Maximale (muP) a été proposée pour les Transformers classiques, permettant un transfert stable des HP des petits aux grands modèles de langage et réduisant considérablement les coûts de réglage. Cependant, il reste incertain si la muP des Transformers classiques s'étend aux Transformers de diffusion, qui diffèrent à la fois sur le plan architectural et objectif. Dans ce travail, nous généralisons la muP standard aux Transformers de diffusion et validons son efficacité à travers des expériences à grande échelle. Tout d'abord, nous prouvons rigoureusement que la muP des Transformers de diffusion dominants, incluant DiT, U-ViT, PixArt-alpha et MMDiT, s'aligne avec celle du Transformer classique, permettant l'application directe des méthodologies muP existantes. En exploitant ce résultat, nous démontrons systématiquement que DiT-muP bénéficie d'une robuste transférabilité des HP. Notamment, DiT-XL-2-muP avec un taux d'apprentissage transféré atteint une convergence 2,9 fois plus rapide que le DiT-XL-2 original. Enfin, nous validons l'efficacité de la muP sur la génération texte-image en faisant évoluer PixArt-alpha de 0,04B à 0,61B et MMDiT de 0,18B à 18B. Dans les deux cas, les modèles sous muP surpassent leurs bases de référence respectives tout en nécessitant un faible coût de réglage, seulement 5,5 % d'une session d'entraînement pour PixArt-alpha et 3 % de la consommation par des experts humains pour MMDiT-18B. Ces résultats établissent la muP comme un cadre à la fois rigoureux et efficace pour la mise à l'échelle des Transformers de diffusion.
Dans ce travail, nous présentons LLaDA-V, un modèle de langage multimodal (MLLM) basé exclusivement sur la diffusion, qui intègre un réglage par instructions visuelles avec des modèles de diffusion masqués, marquant ainsi une rupture avec les paradigmes autorégressifs dominants dans les approches multimodales actuelles. Construit sur LLaDA, un modèle de diffusion de langage de grande taille représentatif, LLaDA-V intègre un encodeur visuel et un connecteur MLP qui projettent les caractéristiques visuelles dans l'espace d'embedding linguistique, permettant un alignement multimodal efficace. Notre investigation empirique révèle plusieurs résultats intrigants : Premièrement, LLaDA-V démontre des performances multimodales prometteuses bien que son modèle de langage soit moins performant sur des tâches purement textuelles que des modèles comme LLaMA3-8B et Qwen2-7B. Lorsqu'il est entraîné sur les mêmes données d'instruction, LLaDA-V est très compétitif par rapport à LLaMA3-V dans les tâches multimodales, avec une meilleure scalabilité des données. Il réduit également l'écart de performance avec Qwen2-VL, suggérant l'efficacité de son architecture pour les tâches multimodales. Deuxièmement, LLaDA-V atteint des performances de pointe en compréhension multimodale par rapport aux MLLM hybrides autorégressifs-diffusifs et purement basés sur la diffusion existants. Nos résultats suggèrent que les modèles de diffusion de langage de grande taille montrent un potentiel dans les contextes multimodaux et méritent des investigations approfondies dans les recherches futures. Page du projet et codes : https://ml-gsai.github.io/LLaDA-V-demo/.
Malgré les récents progrès dans l'apprentissage par renforcement (RL) à grande échelle pour le raisonnement, la recette d'entraînement pour construire des modèles de raisonnement performants reste insaisissable. Les détails clés d'implémentation des modèles de pointe, tels que DeepSeek-R1, y compris les stratégies de curation des données et la recette d'entraînement RL, sont souvent omis. De plus, des recherches récentes indiquent que la distillation reste plus efficace que le RL pour les modèles plus petits. Dans ce travail, nous démontrons que le RL à grande échelle peut considérablement améliorer les capacités de raisonnement de modèles petits et moyens déjà performants, obtenant des résultats qui surpassent ceux des modèles basés sur la distillation de pointe. Nous étudions systématiquement le processus d'entraînement RL à travers des ablations extensives et proposons une approche simple mais efficace : un entraînement d'abord sur des prompts uniquement mathématiques, puis sur des prompts uniquement de code. Notamment, nous constatons que le RL uniquement mathématique améliore non seulement significativement les performances des modèles distillés sur les benchmarks mathématiques (par exemple, +14,6% / +17,2% sur AIME 2025 pour les modèles 7B / 14B), mais aussi sur les tâches de raisonnement de code (par exemple, +6,8% / +5,8% sur LiveCodeBench pour les modèles 7B / 14B). De plus, des itérations prolongées de RL uniquement de code améliorent encore les performances sur les benchmarks de code avec une dégradation minimale ou nulle des résultats en mathématiques. Nous développons un pipeline robuste de curation des données pour collecter des prompts difficiles avec des réponses et des cas de test de haute qualité et vérifiables, permettant un RL basé sur la vérification dans les deux domaines. Enfin, nous identifions des insights expérimentaux clés, y compris l'apprentissage curriculaire avec des longueurs de réponse progressivement croissantes et l'effet stabilisateur des mises à jour de paramètres on-policy. Nous constatons que le RL non seulement révèle les capacités de raisonnement fondamentales acquises lors du pré-entraînement et du fine-tuning supervisé (par exemple, la distillation), mais repousse également les limites de la capacité de raisonnement du modèle, lui permettant de résoudre des problèmes auparavant insolubles.
Les modèles de génération visuelle ont réalisé des progrès remarquables dans la création d'images réalistes à partir de prompts textuels, mais peinent encore à traiter des prompts complexes spécifiant plusieurs objets avec des relations spatiales et attributs précis. La gestion efficace de tels prompts nécessite un raisonnement explicite sur le contenu sémantique et la disposition spatiale. Nous présentons GoT-R1, un cadre qui applique l'apprentissage par renforcement pour améliorer le raisonnement sémantique-spatial dans la génération visuelle. S'appuyant sur l'approche Generation Chain-of-Thought, GoT-R1 permet aux modèles de découvrir de manière autonome des stratégies de raisonnement efficaces au-delà des modèles prédéfinis, grâce à un apprentissage par renforcement soigneusement conçu. Pour y parvenir, nous proposons un cadre de récompense multi-dimensionnel à double étape qui exploite les MLLM pour évaluer à la fois le processus de raisonnement et le résultat final, permettant une supervision efficace tout au long du pipeline de génération. Le système de récompense évalue l'alignement sémantique, la précision spatiale et la qualité visuelle de manière unifiée. Les résultats expérimentaux montrent des améliorations significatives sur le benchmark T2I-CompBench, en particulier dans les tâches compositionnelles impliquant des relations spatiales précises et la liaison d'attributs. GoT-R1 fait progresser l'état de l'art en génération d'images en transférant avec succès des capacités de raisonnement sophistiquées au domaine de la génération visuelle. Pour faciliter les recherches futures, nous mettons notre code et nos modèles pré-entraînés à disposition sur https://github.com/gogoduan/GoT-R1.
L'apprentissage par renforcement averse au risque trouve des applications dans divers domaines à enjeux élevés. Contrairement à l'apprentissage par renforcement classique, qui vise à maximiser les rendements attendus, les agents averses au risque choisissent des politiques qui minimisent le risque, sacrifiant parfois la valeur attendue. Ces préférences peuvent être formulées à travers la théorie de l'utilité. Nous nous concentrons sur le cas spécifique de la fonction d'utilité exponentielle, où nous pouvons dériver les équations de Bellman et employer divers algorithmes d'apprentissage par renforcement avec peu de modifications. Cependant, ces méthodes souffrent d'instabilité numérique en raison de la nécessité de calculer des exponentielles tout au long du processus. Pour remédier à cela, nous introduisons une fonction de perte numériquement stable et mathématiquement solide basée sur la divergence d'Itakura-Saito pour l'apprentissage des fonctions de valeur d'état et d'action. Nous évaluons notre fonction de perte proposée par rapport à des alternatives établies, à la fois théoriquement et empiriquement. Dans la section expérimentale, nous explorons plusieurs scénarios financiers, certains avec des solutions analytiques connues, et montrons que notre fonction de perte surpasse les alternatives.
L'entraînement de modèles robustes de recherche et de reranking repose généralement sur des ensembles de données de recherche à grande échelle ; par exemple, la collection BGE contient 1,6 million de paires requête-passage provenant de diverses sources de données. Cependant, nous constatons que certains ensembles de données peuvent nuire à l'efficacité des modèles — l'élagage de 8 des 15 ensembles de données de la collection BGE réduit la taille de l'ensemble d'entraînement de 2,35 fois et augmente le nDCG@10 sur BEIR de 1,0 point. Cela motive un examen approfondi de la qualité des données d'entraînement, en mettant particulièrement l'accent sur les "faux négatifs", où des passages pertinents sont incorrectement étiquetés comme non pertinents. Nous proposons une approche simple et économique utilisant des prompts en cascade de LLM pour identifier et réétiqueter les négatifs difficiles. Les résultats expérimentaux montrent que le réétiquetage des faux négatifs en vrais positifs améliore à la fois les modèles de recherche E5 (base) et Qwen2.5-7B de 0,7 à 1,4 nDCG@10 sur BEIR et de 1,7 à 1,8 nDCG@10 sur l'évaluation zero-shot AIR-Bench. Des gains similaires sont observés pour les rerankers affinés sur les données réétiquetées, comme Qwen2.5-3B sur BEIR. La fiabilité de la conception en cascade est en outre soutenue par les résultats d'annotation humaine, où nous constatons que les jugements de GPT-4o montrent un accord bien plus élevé avec les humains que ceux de GPT-4o-mini.
L'intelligence artificielle générative (GenAI) présente un potentiel significatif pour automatiser les tâches quotidiennes de retouche d'images, notamment suite à la récente sortie de GPT-4o le 25 mars 2025. Cependant, quels sont les sujets que les gens souhaitent le plus souvent retoucher ? Quels types d'actions de retouche souhaitent-ils effectuer (par exemple, supprimer ou styliser le sujet) ? Les gens préfèrent-ils des retouches précises avec des résultats prévisibles ou des retouches hautement créatives ? En comprenant les caractéristiques des demandes réelles et les retouches correspondantes effectuées par des experts freelance en retouche photo, pouvons-nous tirer des leçons pour améliorer les éditeurs basés sur l'IA et déterminer quels types de demandes peuvent actuellement être gérés avec succès par les éditeurs IA ? Dans cet article, nous présentons une étude unique abordant ces questions en analysant 83 000 demandes des 12 dernières années (2013-2025) sur la communauté Reddit, qui a collecté 305 000 retouches effectuées par des experts PSR. Selon les évaluations humaines, seulement environ 33 % des demandes peuvent être satisfaites par les meilleurs éditeurs IA (y compris GPT-4o, Gemini-2.0-Flash, SeedEdit). Il est intéressant de noter que les éditeurs IA performent moins bien sur les demandes peu créatives nécessitant une retouche précise que sur les tâches plus ouvertes. Ils ont souvent du mal à préserver l'identité des personnes et des animaux, et effectuent fréquemment des retouches non demandées. D'un autre côté, les juges VLM (par exemple, o1) se comportent différemment des juges humains et peuvent préférer les retouches IA aux retouches humaines. Le code et des exemples qualitatifs sont disponibles à l'adresse suivante : https://psrdataset.github.io
Les grands modèles de langage (LLMs) ont réalisé des progrès remarquables dans les tâches mathématiques grâce au raisonnement en chaîne de pensée (Chain-of-Thought, CoT). Cependant, les ensembles de données mathématiques CoT existants souffrent souvent de sauts de pensée (Thought Leaps) dus à l'omission d'étapes intermédiaires par les experts, ce qui affecte négativement l'apprentissage et la généralisation des modèles. Nous proposons la tâche CoT Thought Leap Bridge, qui vise à détecter automatiquement ces sauts et à générer les étapes de raisonnement intermédiaires manquantes pour restaurer la complétude et la cohérence du CoT. Pour faciliter cela, nous avons construit un ensemble de données d'entraînement spécialisé appelé ScaleQM+, basé sur l'ensemble de données structuré ScaleQuestMath, et avons entraîné CoT-Bridge à combler les sauts de pensée. À travers des expériences approfondies sur des benchmarks de raisonnement mathématique, nous démontrons que les modèles affinés sur des ensembles de données comblés surpassent systématiquement ceux entraînés sur les ensembles de données originaux, avec des améliorations allant jusqu'à +5,87 % sur NuminaMath. Notre approche améliore efficacement les données distillées (+3,02 %) et fournit de meilleurs points de départ pour l'apprentissage par renforcement (+3,1 %), fonctionnant comme un module plug-and-play compatible avec les techniques d'optimisation existantes. De plus, CoT-Bridge montre une meilleure généralisation aux tâches de raisonnement logique hors domaine, confirmant que l'amélioration de la complétude du raisonnement apporte des bénéfices largement applicables.
Les grands modèles de raisonnement (Large Reasoning Models, LRMs), tels qu'OpenAI o1 et DeepSeek-R1, ont considérablement amélioré leurs capacités de raisonnement en générant des chaînes de pensée plus longues, démontrant des performances exceptionnelles sur une variété de tâches. Cependant, ce gain de performance s'accompagne d'une augmentation substantielle de raisonnements redondants lors du processus de génération, entraînant un surcoût computationnel important et exacerbant le problème de la surréflexion. Bien que de nombreuses approches existantes visent à résoudre ce problème, elles reposent souvent sur des interventions externes. Dans cet article, nous proposons un nouveau cadre, le Self-Braking Tuning (SBT), qui aborde la surréflexion en permettant au modèle de réguler son propre processus de raisonnement, éliminant ainsi la dépendance à des mécanismes de contrôle externes. Nous construisons un ensemble de métriques d'identification de la surréflexion basées sur des réponses standard et concevons une méthode systématique pour détecter les raisonnements redondants. Cette méthode identifie avec précision les étapes inutiles dans la trajectoire de raisonnement et génère des signaux d'apprentissage pour les comportements d'autorégulation. Sur cette base, nous développons une stratégie complète pour construire des données avec des longueurs de raisonnement adaptatives et introduisons un mécanisme innovant de prompts de freinage qui permet au modèle d'apprendre naturellement quand arrêter le raisonnement à un point approprié. Les expériences menées sur des benchmarks mathématiques (AIME, AMC, MATH500, GSM8K) montrent que notre méthode réduit la consommation de tokens jusqu'à 60% tout en maintenant une précision comparable à celle des modèles non contraints.
Malgré la qualité remarquable de génération des modèles de Diffusion Transformer (DiT) pour la vidéo, leur déploiement pratique est fortement limité par des exigences computationnelles importantes. Cette inefficacité découle de deux défis majeurs : la complexité quadratique de l'auto-attention par rapport à la longueur des tokens et la nature multi-étapes des modèles de diffusion. Pour surmonter ces limitations, nous présentons Jenga, un pipeline d'inférence novateur qui combine une découpe dynamique de l'attention avec une génération progressive de la résolution. Notre approche s'appuie sur deux idées clés : (1) les premières étapes de débruitage ne nécessitent pas de latents haute résolution, et (2) les étapes ultérieures ne requièrent pas une attention dense. Jenga introduit un mécanisme d'attention par blocs qui sélectionne dynamiquement les interactions pertinentes entre tokens en utilisant des courbes de remplissage d'espace 3D, ainsi qu'une stratégie de résolution progressive qui augmente graduellement la résolution des latents pendant la génération. Les résultats expérimentaux montrent que Jenga permet des accélérations significatives sur plusieurs modèles de diffusion vidéo de pointe tout en maintenant une qualité de génération comparable (accélération de 8,83 fois avec une baisse de performance de 0,01 % sur VBench). En tant que solution plug-and-play, Jenga rend possible une génération vidéo pratique et de haute qualité sur du matériel moderne en réduisant le temps d'inférence de plusieurs minutes à quelques secondes -- sans nécessiter de réentraînement du modèle. Code : https://github.com/dvlab-research/Jenga
Dans ce travail, nous proposons Dimple, le premier Modèle de Langage Multimodal à Diffusion Discrète (DMLLM). Nous observons qu'un entraînement basé uniquement sur une approche de diffusion discrète entraîne une instabilité significative pendant l'entraînement, des performances sous-optimales et des problèmes importants de biais de longueur. Pour résoudre ces défis, nous concevons un nouveau paradigme d'entraînement qui combine une phase initiale autoregressive avec une phase de diffusion subséquente. Cette approche donne naissance au modèle Dimple-7B, entraîné sur le même ensemble de données et utilisant un pipeline d'entraînement similaire à celui de LLaVA-NEXT. Dimple-7B surpasse finalement LLaVA-NEXT en performance de 3,9 %, démontrant ainsi que les DMLLM peuvent atteindre des performances comparables à celles des modèles autoregressifs. Pour améliorer l'efficacité de l'inférence, nous proposons une stratégie de décodage appelée décodage confiant, qui ajuste dynamiquement le nombre de tokens générés à chaque étape, réduisant ainsi significativement le nombre d'itérations de génération. Dans les modèles autoregressifs, le nombre d'itérations avant pendant la génération est égal à la longueur de la réponse. Avec le décodage confiant, cependant, le nombre d'itérations nécessaires pour Dimple est même seulement text{longueur de la réponse}{3}. Nous réimplémentons également la technique de préremplissage dans les modèles autoregressifs et démontrons qu'elle n'a pas d'impact significatif sur les performances dans la plupart des évaluations de référence, tout en offrant une accélération de 1,5x à 7x. De plus, nous explorons la capacité de Dimple à contrôler précisément ses réponses en utilisant des priors de structure. Ces priors permettent des réponses structurées d'une manière distincte de l'incitation basée sur des instructions ou sur le raisonnement en chaîne, et offrent un contrôle fin du format et de la longueur de la réponse, ce qui est difficile à réaliser dans les modèles autoregressifs. Globalement, ce travail valide la faisabilité et les avantages des DMLLM et améliore leur efficacité d'inférence et leur contrôlabilité. Le code et les modèles sont disponibles à l'adresse https://github.com/yu-rp/Dimple.
Alors que les jeux vidéo génèrent désormais les revenus les plus élevés dans l'industrie du divertissement, l'optimisation des flux de travail de développement de jeux est devenue essentielle pour la croissance durable du secteur. Les récentes avancées dans les modèles vision-langage (VLMs) offrent un potentiel considérable pour automatiser et améliorer divers aspects du développement de jeux, en particulier l'assurance qualité (QA), qui reste l'un des processus les plus intensifs en main-d'œuvre de l'industrie avec des options d'automatisation limitées. Pour évaluer avec précision les performances des VLMs dans les tâches de QA de jeux vidéo et déterminer leur efficacité dans la gestion de scénarios réels, il est clairement nécessaire de disposer de benchmarks standardisés, car les benchmarks existants sont insuffisants pour répondre aux exigences spécifiques de ce domaine. Pour combler cette lacune, nous présentons VideoGameQA-Bench, un benchmark complet qui couvre un large éventail d'activités de QA de jeux, y compris les tests unitaires visuels, les tests de régression visuels, les tâches de recherche d'aiguille dans une botte de foin, la détection de bugs et la génération de rapports de bugs pour des images et des vidéos de divers jeux. Le code et les données sont disponibles à l'adresse suivante : https://asgaardlab.github.io/videogameqa-bench/
Bien que l'apprentissage par renforcement (RL) ait démontré un succès remarquable dans l'amélioration des grands modèles de langage (LLMs), il s'est principalement concentré sur des tâches à tour unique, comme la résolution de problèmes mathématiques. L'entraînement d'agents web efficaces pour des interactions multi-tours reste un défi en raison de la complexité de la prise de décision à long terme sur des interfaces web dynamiques. Dans ce travail, nous présentons WebAgent-R1, un cadre d'apprentissage par renforcement multi-tours simple mais efficace pour entraîner des agents web. Il apprend directement à partir d'interactions en ligne avec des environnements web en générant de manière asynchrone des trajectoires diversifiées, entièrement guidé par des récompenses binaires dépendant du succès de la tâche. Les expériences sur le benchmark WebArena-Lite démontrent l'efficacité de WebAgent-R1, augmentant le taux de réussite des tâches de Qwen-2.5-3B de 6,1 % à 33,9 % et de Llama-3.1-8B de 8,5 % à 44,8 %, surpassant significativement les méthodes état de l'art existantes et les modèles propriétaires puissants comme OpenAI o3. Des analyses approfondies révèlent l'efficacité de la stratégie d'incitation basée sur la réflexion et de la mise à l'échelle au moment du test grâce à l'augmentation des interactions pour les tâches web. Nous étudions également différentes politiques d'initialisation de l'apprentissage par renforcement en introduisant deux variantes, à savoir WebAgent-R1-Zero et WebAgent-R1-CoT, qui mettent en lumière l'importance de la phase d'entraînement d'échauffement (c'est-à-dire le clonage comportemental) et fournissent des insights sur l'intégration d'un raisonnement en chaîne de pensée (CoT) long dans les agents web.
Les modèles de langage multimodaux de grande taille (MLLMs) sont de plus en plus déployés dans des contextes de fine-tuning-as-a-service (FTaaS), où des ensembles de données soumis par les utilisateurs adaptent des modèles généralistes à des tâches en aval. Cette flexibilité introduit cependant des risques de sécurité importants, car un fine-tuning malveillant peut implanter des portes dérobées dans les MLLMs avec un effort minimal. Dans cet article, nous observons que les déclencheurs de portes dérobées perturbent systématiquement le traitement intermodal en provoquant une concentration anormale de l'attention sur des régions non sémantiques—un phénomène que nous appelons effondrement de l'attention. Sur la base de cette observation, nous proposons Believe Your Eyes (BYE), un cadre de filtrage de données qui exploite les motifs d'entropie de l'attention comme signaux auto-supervisés pour identifier et filtrer les échantillons contenant des portes dérobées. BYE fonctionne via un pipeline en trois étapes : (1) extraction des cartes d'attention à l'aide du modèle fine-tuné, (2) calcul des scores d'entropie et profilage des couches sensibles via une séparation bimodale, et (3) regroupement non supervisé pour éliminer les échantillons suspects. Contrairement aux défenses précédentes, BYE ne nécessite aucune supervision propre, d'étiquettes auxiliaires ou de modifications du modèle. Des expériences approfondies sur divers ensembles de données, modèles et types de déclencheurs valident l'efficacité de BYE : il atteint des taux de réussite d'attaque proches de zéro tout en maintenant les performances sur les tâches propres, offrant ainsi une solution robuste et généralisable contre les menaces de portes dérobées dans les MLLMs.
Les avancées récentes ont montré des succès dans l'élicitation de fortes capacités de raisonnement dans les modèles de langage multimodaux de grande taille (MLLMs) grâce à l'apprentissage par renforcement (RL) basé sur des règles avec des récompenses de résultat. Cependant, ce paradigme manque généralement de supervision sur le processus de réflexion menant au résultat final. Par conséquent, le modèle peut apprendre des stratégies de raisonnement sous-optimales, ce qui peut entraver sa capacité de généralisation. Dans cette optique, nous proposons SophiaVL-R1, une tentative d'ajouter des signaux de récompense pour le processus de réflexion dans ce paradigme. Pour y parvenir, nous entraînons d'abord un modèle de récompense de réflexion qui évalue la qualité de l'ensemble du processus de réflexion. Étant donné que la récompense de réflexion peut être peu fiable pour certains échantillons en raison du piratage de récompense, nous proposons la méthode Trust-GRPO, qui attribue un poids de fiabilité à la récompense de réflexion pendant l'entraînement. Ce poids est calculé sur la base de la comparaison des récompenses de réflexion des réponses menant à des réponses correctes versus incorrectes, aidant à atténuer l'impact des récompenses de réflexion potentiellement peu fiables. De plus, nous concevons une stratégie d'entraînement par recuit qui réduit progressivement la récompense de réflexion au fil du temps, permettant au modèle de s'appuyer davantage sur la récompense de résultat basée sur des règles précises dans les étapes ultérieures de l'entraînement. Les expériences montrent que notre SophiaVL-R1 surpasse une série de MLLMs de raisonnement sur divers benchmarks (par exemple, MathVisita, MMMU), démontrant de solides capacités de raisonnement et de généralisation. Notamment, notre SophiaVL-R1-7B surpasse même LLaVA-OneVision-72B sur la plupart des benchmarks, bien que ce dernier ait 10 fois plus de paramètres. Tous les codes, modèles et ensembles de données sont rendus publics à l'adresse https://github.com/kxfan2002/SophiaVL-R1.
L'apprentissage par renforcement (Reinforcement Learning, RL) est devenu un outil puissant pour améliorer les capacités de raisonnement des grands modèles de langage (Large Language Models, LLMs) en optimisant leurs politiques grâce à des signaux de récompense. Cependant, le succès du RL repose sur la fiabilité des récompenses, qui sont fournies par des vérificateurs. Dans cet article, nous exposons et analysons un problème répandu—les faux négatifs—où les vérificateurs rejettent à tort des sorties correctes du modèle. Notre étude approfondie du jeu de données Big-Math-RL-Verified révèle que plus de 38 % des réponses générées par le modèle souffrent de faux négatifs, où le vérificateur ne parvient pas à reconnaître les réponses correctes. Nous démontrons, à la fois empiriquement et théoriquement, que ces faux négatifs nuisent gravement à l'entraînement du RL en privant le modèle de signaux de gradient informatifs et en ralentissant la convergence. Pour atténuer ce problème, nous proposons TinyV, un vérificateur léger basé sur un LLM qui complète les méthodes existantes basées sur des règles, en identifiant dynamiquement les faux négatifs potentiels et en récupérant les réponses valides pour produire des estimations de récompense plus précises. Sur plusieurs benchmarks de raisonnement mathématique, l'intégration de TinyV améliore les taux de réussite jusqu'à 10 % et accélère la convergence par rapport à la référence. Nos résultats soulignent l'importance cruciale de traiter les faux négatifs des vérificateurs et proposent une approche pratique pour améliorer le réglage fin des LLMs basé sur le RL. Notre code est disponible à l'adresse https://github.com/uw-nsl/TinyV.
Les modèles de langage multimodaux de grande taille (MLLMs) ont obtenu des succès impressionnants dans les tâches de question-réponse, mais leurs capacités en matière de compréhension spatiale sont moins explorées. Ce travail examine une question cruciale : les MLLMs existants possèdent-ils des capacités de perception et de compréhension spatiale en 3D ? Concrètement, nous apportons les contributions suivantes dans cet article : (i) nous introduisons VGBench, un benchmark spécifiquement conçu pour évaluer les MLLMs sur la perception de la géométrie visuelle, par exemple l'estimation de la pose de la caméra et du mouvement ; (ii) nous proposons SpatialScore, le benchmark de compréhension spatiale multimodale le plus complet et diversifié à ce jour, intégrant VGBench avec des données pertinentes provenant de 11 autres ensembles de données existants. Ce benchmark comprend 28 000 échantillons couvrant diverses tâches de compréhension spatiale, modalités et formats de question-réponse, ainsi qu'un sous-ensemble difficile soigneusement sélectionné, SpatialScore-Hard ; (iii) nous développons SpatialAgent, un nouveau système multi-agents intégrant 9 outils spécialisés pour la compréhension spatiale, prenant en charge à la fois les paradigmes de raisonnement Plan-Execute et ReAct ; (iv) nous menons des évaluations approfondies pour révéler les défis persistants en matière de raisonnement spatial tout en démontrant l'efficacité de SpatialAgent. Nous croyons que SpatialScore offrira des insights précieux et servira de benchmark rigoureux pour la prochaine évolution des MLLMs.
Les modèles vision-langage modernes (VLMs) peuvent résoudre un large éventail de tâches nécessitant un raisonnement visuel. Dans des scénarios réels, les propriétés souhaitables pour les VLMs incluent une inférence rapide et une génération contrôlable (par exemple, contraindre les sorties à respecter un format souhaité). Cependant, les VLMs autorégressifs (AR) existants comme LLaVA peinent dans ces aspects. Les modèles de diffusion discrets (DMs) offrent une alternative prometteuse, permettant un décodage parallèle pour une inférence plus rapide et un contexte bidirectionnel pour une génération contrôlable via le remplissage de texte. Bien qu'efficaces dans des contextes uniquement linguistiques, le potentiel des DMs pour les tâches multimodales est sous-exploré. Nous présentons LaViDa, une famille de VLMs basée sur les DMs. Nous construisons LaViDa en équipant les DMs d'un encodeur visuel et en affinant conjointement les parties combinées pour le suivi d'instructions multimodales. Pour relever les défis rencontrés, LaViDa intègre des techniques novatrices telles que le masquage complémentaire pour un entraînement efficace, le cache KV de préfixe pour une inférence efficiente, et le décalage temporel pour un échantillonnage de haute qualité. Les expériences montrent que LaViDa atteint des performances compétitives ou supérieures aux VLMs AR sur des benchmarks multimodaux comme MMMU, tout en offrant les avantages uniques des DMs, y compris un compromis flexible vitesse-qualité, la contrôlabilité, et le raisonnement bidirectionnel. Sur la génération de légendes COCO, LaViDa surpasse Open-LLaVa-Next-8B de +4,1 CIDEr avec une accélération de 1,92x. Sur les tâches bidirectionnelles, il réalise une amélioration de +59 % sur la complétion de poèmes contraints. Ces résultats démontrent que LaViDa constitue une alternative solide aux VLMs AR. Le code et les modèles seront publiés dans la version finale.
Des études récentes ont démontré l'efficacité de l'utilisation de l'apprentissage par renforcement (Reinforcement Learning, RL) pour construire des modèles de raisonnement qui articulent des chaînes de pensées avant de produire des réponses finales. Cependant, malgré les avancées continues visant à permettre le raisonnement pour les tâches vision-langage, les modèles de raisonnement visuel open-source existants génèrent généralement un contenu de raisonnement en langage naturel pur, sans intégration explicite des informations visuelles. Cela limite leur capacité à produire des chaînes de raisonnement clairement articulées et ancrées visuellement. Pour pallier cela, nous proposons Grounded Reasoning with Images and Texts (GRIT), une méthode novatrice pour entraîner des modèles multilingues (MLLMs) à raisonner avec des images. GRIT introduit un paradigme de raisonnement ancré, dans lequel les modèles génèrent des chaînes de raisonnement qui entrelacent le langage naturel et des coordonnées explicites de boîtes englobantes. Ces coordonnées pointent vers des régions de l'image d'entrée que le modèle consulte pendant son processus de raisonnement. De plus, GRIT est équipé d'une approche d'apprentissage par renforcement, GRPO-GR, basée sur l'algorithme GRPO. GRPO-GR utilise des récompenses robustes axées sur la précision de la réponse finale et le format de la sortie de raisonnement ancré, ce qui élimine le besoin de données avec des annotations de chaînes de raisonnement ou des étiquettes explicites de boîtes englobantes. En conséquence, GRIT atteint une efficacité exceptionnelle en termes de données, nécessitant aussi peu que 20 triplets image-question-réponse provenant de jeux de données existants. Des évaluations approfondies démontrent que GRIT entraîne efficacement les MLLMs à produire des chaînes de raisonnement cohérentes et ancrées visuellement, montrant une unification réussie des capacités de raisonnement et d'ancrage.
L'apprentissage par renforcement (Reinforcement Learning, RL) s'est avéré être une stratégie efficace en post-formation pour améliorer le raisonnement dans les modèles vision-langage (Vision-Language Models, VLMs). L'optimisation de politique relative par groupe (Group Relative Policy Optimization, GRPO) est une méthode récente et prometteuse qui encourage les modèles à générer des traces de raisonnement complètes avant de répondre, ce qui entraîne une augmentation de l'utilisation de tokens et des coûts de calcul. Inspirés par le processus de pensée humain—où les personnes sautent le raisonnement pour des questions faciles mais réfléchissent attentivement lorsque nécessaire—nous explorons comment permettre aux VLMs de décider d'abord quand le raisonnement est nécessaire. Pour réaliser cela, nous proposons TON, une stratégie de formation en deux étapes : (i) une étape de fine-tuning supervisé (Supervised Fine-Tuning, SFT) avec une opération simple mais efficace de 'thought dropout', où les traces de raisonnement sont remplacées aléatoirement par des pensées vides. Cela introduit un format 'penser ou non' qui sert de point de départ pour un raisonnement sélectif ; (ii) une étape GRPO qui permet au modèle d'explorer librement quand penser ou non, tout en maximisant les récompenses liées à la tâche. Les résultats expérimentaux montrent que TON peut réduire la longueur de complétion jusqu'à 90 % par rapport à GRPO standard, sans sacrifier les performances ou même en les améliorant. Des évaluations supplémentaires sur diverses tâches vision-langage—couvrant une gamme de difficultés de raisonnement avec des modèles de 3B et 7B—révèlent de manière cohérente que le modèle apprend progressivement à contourner les étapes de raisonnement inutiles au fur et à mesure de la formation. Ces résultats éclairent la voie vers des modèles de raisonnement plus proches de ceux des humains dans les approches d'apprentissage par renforcement. Notre code est disponible à l'adresse https://github.com/kokolerk/TON.
Récemment, les modèles de langage multimodaux (MLLM) basés sur le raisonnement ont connu un certain succès dans la génération de chaînes de raisonnement textuel longues. Cependant, ils peinent encore à accomplir des tâches complexes nécessitant une focalisation dynamique et itérative sur des régions visuelles, ainsi que leur réexamen, afin d'ancrer précisément le raisonnement textuel dans des preuves visuelles. Nous présentons VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), un cadre qui dote un MLLM de la capacité à (i) décider quand des preuves visuelles supplémentaires sont nécessaires, (ii) déterminer où s'ancrer dans l'image, et (iii) intégrer de manière fluide le contenu pertinent des sous-images dans une chaîne de pensée entrelacée. Le cœur de notre méthode repose sur l'Optimisation de Politique de Renforcement Conditionnée par les Régions (R-GRPO), un paradigme d'entraînement qui récompense le modèle pour la sélection de régions informatives, la formulation de transformations appropriées (par ex. recadrage, zoom), et l'intégration du contexte visuel résultant dans les étapes de raisonnement suivantes. Pour amorcer cette politique, nous avons compilé un corpus modeste mais soigneusement sélectionné de Raisonnements Entrelacés Visuo-Linguistiques (VLIR), qui fournit une supervision au niveau des étapes pour la sélection des régions et la justification textuelle. Des expériences approfondies sur MathVista, ScienceQA et d'autres benchmarks montrent que VLM-R^3 établit un nouvel état de l'art dans les configurations zero-shot et few-shot, avec les gains les plus importants sur les questions exigeant un raisonnement spatial subtil ou une extraction fine d'indices visuels.
L'apprentissage par renforcement (RL) apporte des améliorations substantielles aux performances des grands modèles de langage (LLMs) sur les tâches en aval et à leur alignement avec les valeurs humaines. Étonnamment, ces gains importants résultent de la mise à jour d'un seul sous-réseau ne comprenant que 5 à 30 pour cent des paramètres, le reste restant pratiquement inchangé. Nous qualifions ce phénomène de parcimonie des mises à jour de paramètres induite par le RL. Ce phénomène est observé pour les 7 algorithmes de RL couramment utilisés (par exemple, PPO, GRPO, DPO) et pour les 10 LLMs de différentes familles dans nos expériences. Cette parcimonie est intrinsèque et se produit sans aucune régularisation explicite favorisant la parcimonie ni contrainte architecturale. Le réglage fin du sous-réseau seul permet de retrouver la précision en test et, de manière remarquable, produit un modèle presque identique à celui obtenu par un réglage fin complet. Les sous-réseaux issus de différentes initialisations aléatoires, de données d'entraînement différentes et même d'algorithmes de RL différents présentent un chevauchement nettement plus important que ce que le hasard pourrait expliquer. Notre analyse suggère que cette parcimonie n'est pas due à la mise à jour d'un seul sous-ensemble de couches, mais que presque toutes les matrices de paramètres reçoivent des mises à jour également parcimonieuses. De plus, les mises à jour de presque toutes les matrices de paramètres sont presque de plein rang, ce qui suggère que le RL met à jour un petit sous-ensemble de paramètres qui couvrent néanmoins presque tous les sous-espaces que les matrices de paramètres peuvent représenter. Nous conjecturons que cette parcimonie des mises à jour peut être principalement attribuée à l'entraînement sur des données proches de la distribution de la politique, et que les techniques encourageant la politique à rester proche du modèle pré-entraîné, comme la régularisation KL et l'écrêtage des gradients, ont un impact limité.
Les récents progrès dans les modèles de langage à raisonnement (Reasoning LLMs, par exemple DeepSeek-R1 et OpenAI-o1) ont démontré des capacités de raisonnement impressionnantes grâce à l'apprentissage par renforcement. Cependant, l'extension de ces capacités aux modèles de langage multimodaux (MLLMs) est entravée par les coûts prohibitifs du réentraînement et la rareté des ensembles de données multimodales de haute qualité et vérifiables pour le raisonnement. Ce papier présente le modèle FRANK, un MLLM sans entraînement (training-Free) et similaire à r1, qui confère aux MLLM disponibles sur le marché des capacités de raisonnement et de réflexion, sans aucune mise à jour de gradient ni supervision supplémentaire. Notre idée clé est de découpler la perception et le raisonnement à travers les couches décodeur du MLLM. Plus précisément, nous observons que, par rapport aux couches décodeur plus profondes, les couches décodeur superficielles accordent plus d'attention aux tokens visuels, tandis que les couches décodeur plus profondes se concentrent sur la sémantique textuelle. Cette observation motive une approche de fusion hiérarchique des poids qui combine un MLLM pré-entraîné sur des données visuelles avec un LLM spécialisé dans le raisonnement. À cette fin, nous proposons un mécanisme de fusion en couches, dérivé de Taylor, sous forme fermée, qui intègre la capacité de raisonnement dans les couches décodeur profondes tout en préservant l'ancrage visuel dans les couches décodeur superficielles. Des expériences approfondies sur des benchmarks de raisonnement multimodal difficiles démontrent l'efficacité de notre approche. Sur le benchmark MMMU, notre modèle FRANK-38B atteint une précision de 69,2, surpassant le meilleur modèle de référence, InternVL2.5-38B, de +5,3, et dépasse même le modèle propriétaire GPT-4o. La page d'accueil de notre projet est disponible à l'adresse : http://iip.whu.edu.cn/frank/index.html
Les grands modèles vision-langage (LVLMs) restent vulnérables aux hallucinations, générant souvent un contenu non aligné avec les entrées visuelles. Bien que les approches récentes aient fait progresser l'optimisation directe des préférences multimodales (DPO) pour atténuer les hallucinations, elles reposent généralement sur des échantillons négatifs prédéfinis ou modifiés aléatoirement qui ne reflètent pas les erreurs réelles du modèle, limitant ainsi l'efficacité de l'entraînement. Dans ce travail, nous proposons un cadre d'apprentissage des préférences vision-langage en ligne (OViP) qui construit dynamiquement des données d'entraînement contrastives basées sur les sorties hallucinées du modèle lui-même. En identifiant les différences sémantiques entre les paires de réponses échantillonnées et en synthétisant des images négatives à l'aide d'un modèle de diffusion, OViP génère des signaux de supervision plus pertinents en temps réel. Cet entraînement basé sur les échecs permet un alignement adaptatif des préférences textuelles et visuelles. De plus, nous affinons les protocoles d'évaluation existants pour mieux capturer le compromis entre la suppression des hallucinations et l'expressivité. Les expériences sur les benchmarks d'hallucination et généraux démontrent qu'OViP réduit efficacement les hallucinations tout en préservant les capacités multimodales essentielles.
Les modèles de langage multi-modaux de grande envergure (MLLMs) ont rapidement progressé dans les tâches visuelles, mais leur compréhension spatiale reste limitée à des images uniques, les rendant peu adaptés à la robotique et à d'autres applications réelles nécessitant un raisonnement multi-images. Dans cet article, nous proposons un cadre pour doter les MLLMs d'une compréhension spatiale multi-images robuste en intégrant la perception de la profondeur, la correspondance visuelle et la perception dynamique. Au cœur de notre approche se trouve le jeu de données MultiSPA, une collection novatrice et à grande échelle de plus de 27 millions d'échantillons couvrant des scènes 3D et 4D variées. Accompagnant MultiSPA, nous introduisons un benchmark complet qui teste un large éventail de tâches spatiales selon des métriques uniformes. Notre modèle résultant, Multi-SpatialMLLM, obtient des gains significatifs par rapport aux systèmes de référence et propriétaires, démontrant un raisonnement multi-images scalable et généralisable. Nous observons également des bénéfices multi-tâches et des signes précoces de capacités émergentes dans des scénarios complexes, et montrons comment notre modèle peut servir d'annotateur de récompense multi-images pour la robotique.
Les grands modèles de langage (LLMs) ont démontré des capacités avancées dans des applications agentiques en contexte réel. Les efforts de recherche croissants visent à développer des agents basés sur LLM pour répondre à des demandes pratiques, introduisant un nouveau défi : les scénarios agentiques impliquent souvent des instructions longues avec des contraintes complexes, telles que des prompts système étendus et des spécifications détaillées d'outils. Bien que le respect de ces instructions soit crucial pour les applications agentiques, la capacité des LLMs à les suivre de manière fiable reste peu explorée. Dans cet article, nous présentons AgentIF, le premier benchmark pour évaluer systématiquement la capacité des LLMs à suivre des instructions dans des scénarios agentiques. AgentIF se caractérise par trois aspects clés : (1) Réaliste, construit à partir de 50 applications agentiques réelles. (2) Long, avec une moyenne de 1 723 mots et un maximum de 15 630 mots. (3) Complexe, avec une moyenne de 11,9 contraintes par instruction, couvrant divers types de contraintes, telles que les spécifications d'outils et les contraintes conditionnelles. Pour construire AgentIF, nous avons collecté 707 instructions annotées par des humains sur 50 tâches agentiques provenant d'agents d'applications industrielles et de systèmes agentiques open-source. Pour chaque instruction, nous avons annoté les contraintes associées et les métriques d'évaluation correspondantes, incluant l'évaluation basée sur du code, l'évaluation basée sur LLM et une évaluation hybride code-LLM. Nous utilisons AgentIF pour évaluer systématiquement les LLMs avancés existants. Nous observons que les modèles actuels performent généralement mal, en particulier dans la gestion des structures de contraintes complexes et des spécifications d'outils. Nous menons également une analyse des erreurs et des expériences analytiques sur la longueur des instructions et les méta-contraintes, fournissant des observations sur les modes d'échec des LLMs existants. Nous avons publié le code et les données pour faciliter les recherches futures.
L'apprentissage par renforcement à partir de retours humains (RLHF) est devenu un paradigme puissant pour aligner les grands modèles de langage avec les préférences humaines après leur entraînement. Un défi central dans le RLHF est la construction de signaux de récompense précis, où les modèles de récompense conventionnels de type Bradley-Terry (BT RM) souffrent souvent d'une sensibilité à la taille et à la couverture des données, ainsi que d'une vulnérabilité au piratage des récompenses. Les modèles de récompense génératifs (GenRM) offrent une alternative plus robuste en générant des rationales en chaîne de pensée (CoT) suivies d'une récompense finale. Cependant, les GenRM existants reposent sur un raisonnement superficiel et verticalement mis à l'échelle, limitant leur capacité à gérer des tâches nuancées ou complexes (par exemple, nécessitant un raisonnement approfondi). De plus, leurs sorties de préférences par paires sont incompatibles avec les algorithmes RLHF standard qui nécessitent des signaux de récompense ponctuels. Dans ce travail, nous introduisons Think-RM, un cadre d'entraînement qui permet un raisonnement à long horizon dans les GenRM en modélisant un processus de pensée interne. Plutôt que de produire des rationales structurées et fournies de l'extérieur, Think-RM génère des traces de raisonnement flexibles et autoguidées qui soutiennent des capacités avancées telles que l'autoréflexion, le raisonnement hypothétique et le raisonnement divergent. Pour susciter ces capacités de raisonnement, nous commençons par réchauffer les modèles par un ajustement fin supervisé (SFT) sur des données CoT longues. Nous améliorons ensuite les capacités à long horizon du modèle par un apprentissage par renforcement basé sur des règles (RL). En outre, nous proposons un nouveau pipeline RLHF par paires qui optimise directement les politiques en utilisant des récompenses de préférence par paires, éliminant ainsi le besoin de conversion en récompenses ponctuelles et permettant une utilisation plus efficace des sorties de Think-RM. Les expériences montrent que Think-RM atteint des résultats de pointe sur RM-Bench, surpassant à la fois BT RM et GenRM verticalement mis à l'échelle de 8 %. Lorsqu'il est combiné avec notre pipeline RLHF par paires, il démontre une performance de politique finale supérieure par rapport aux approches traditionnelles.
Les Modèles de Raisonnement à Grande Échelle (LRMs) introduisent un nouveau paradigme de génération basé sur un raisonnement explicite avant de répondre, conduisant à des améliorations remarquables dans les tâches complexes. Cependant, ils présentent des risques de sécurité importants face aux requêtes malveillantes et aux attaques adverses. Bien que les efforts récents en matière de sécurité sur les LRMs, notamment le fine-tuning supervisé (SFT), améliorent les performances de sécurité, nous constatons que les modèles alignés par SFT peinent à généraliser face à des prompts de contournement inédits. Après une analyse approfondie de la génération des LRMs, nous identifions un moment de prise de conscience de sécurité qui peut activer le raisonnement de sécurité et conduire à une réponse sûre. Ce moment de prise de conscience apparaît généralement dans la `phrase clé', qui suit le processus de compréhension de la requête par le modèle et peut indiquer si le modèle procédera de manière sûre. Sur la base de ces observations, nous proposons SafeKey, incluant deux objectifs complémentaires pour mieux activer le moment de prise de conscience de sécurité dans la phrase clé : (1) une Tête de Sécurité à Double Voie pour renforcer le signal de sécurité dans les représentations internes du modèle avant la phrase clé, et (2) un objectif de Modélisation Masquée de la Requête pour améliorer l'attention du modèle sur sa compréhension de la requête, qui contient des indices de sécurité importants. Les expériences sur plusieurs benchmarks de sécurité démontrent que nos méthodes améliorent significativement la généralisation de la sécurité face à un large éventail d'attaques de contournement et de prompts malveillants hors distribution, réduisant le taux moyen de nocivité de 9,6\%, tout en maintenant les capacités générales. Notre analyse révèle comment SafeKey améliore la sécurité en remodelant l'attention interne et en améliorant la qualité des représentations cachées.
Les modèles de récompense de processus (Process Reward Models, PRMs), qui fournissent un retour d'information étape par étape sur le raisonnement généré par les grands modèles de langage (Large Language Models, LLMs), suscitent un intérêt croissant. Cependant, deux lacunes majeures persistent dans la recherche : la collecte d'étiquettes d'erreur précises au niveau des étapes pour l'entraînement nécessite généralement une annotation humaine coûteuse, et les PRM existants se limitent aux problèmes de raisonnement mathématique. Pour répondre à ces lacunes, cet article vise à relever les défis de la création automatique de jeux de données et de la généralisation des PRM à des tâches de raisonnement variées. Pour atteindre cet objectif, nous proposons FoVer, une approche pour entraîner les PRM sur des étiquettes d'erreur au niveau des étapes annotées automatiquement par des outils de vérification formelle, tels que Z3 pour la logique formelle et Isabelle pour les preuves de théorèmes, qui fournissent une vérification automatique et précise pour les tâches symboliques. En utilisant cette approche, nous synthétisons un jeu de données d'entraînement avec des étiquettes d'erreur sur les réponses des LLM pour des tâches de logique formelle et de preuve de théorèmes sans annotation humaine. Bien que cette synthèse de données ne soit réalisable que pour les tâches compatibles avec la vérification formelle, nous observons que les PRM basés sur les LLM entraînés sur notre jeu de données présentent une généralisation inter-tâches, améliorant la vérification sur diverses tâches de raisonnement. Plus précisément, les PRM entraînés avec FoVer surpassent significativement les PRM de référence basés sur les LLM originaux et obtiennent des résultats compétitifs ou supérieurs par rapport aux PRM de pointe entraînés sur des étiquettes annotées par des humains ou des modèles plus puissants, mesurés par la vérification au niveau des étapes sur ProcessBench et la performance Best-of-K sur 12 benchmarks de raisonnement, incluant MATH, AIME, ANLI, MMLU et BBH. Les jeux de données, modèles et code sont disponibles à l'adresse https://github.com/psunlpgroup/FoVer.
Les systèmes de traduction automatique de haute qualité basés sur des modèles de langage de grande taille (LLMs) ont simplifié la production de traductions personnalisées reflétant des contraintes stylistiques spécifiques. Cependant, ces systèmes rencontrent encore des difficultés dans des contextes où les exigences stylistiques sont moins explicites et pourraient être plus difficiles à transmettre via des prompts. Nous explorons diverses stratégies pour personnaliser les traductions générées par des LLMs dans des contextes à faibles ressources, en nous concentrant sur le domaine complexe de la traduction littéraire. Nous examinons des stratégies de prompting et des interventions au moment de l'inférence pour orienter les générations du modèle vers un style personnalisé, et proposons un cadre contrastif exploitant des concepts latents extraits d'autoencodeurs parcimonieux pour identifier des propriétés de personnalisation saillantes. Nos résultats montrent que l'orientation permet une forte personnalisation tout en préservant la qualité de la traduction. Nous examinons également l'impact de l'orientation sur les représentations des LLMs, constatant que les couches du modèle ayant un impact pertinent pour la personnalisation sont affectées de manière similaire par le prompting multi-shot et notre méthode d'orientation, suggérant des mécanismes similaires en jeu.
L'évaluation des capacités de génération de texte des grands modèles de langage (LLMs) est un défi, en particulier pour les langues à faibles ressources où les méthodes d'évaluation directe sont rares. Nous proposons MUG-Eval, un cadre novateur qui évalue les capacités de génération multilingue des LLMs en transformant des benchmarks existants en tâches conversationnelles et en mesurant la précision des LLMs sur ces tâches. Nous avons spécifiquement conçu ces tâches conversationnelles pour exiger une communication efficace dans la langue cible. Ensuite, nous utilisons simplement le taux de réussite des tâches comme indicateur de la génération réussie de conversations. Notre approche offre deux avantages clés : elle est indépendante des outils de traitement du langage naturel (NLP) spécifiques à une langue ou des ensembles de données annotées, qui sont limités pour la plupart des langues, et elle ne repose pas sur les LLMs-comme-juges, dont la qualité d'évaluation se dégrade en dehors de quelques langues à ressources élevées. Nous évaluons 8 LLMs sur 30 langues couvrant des catégories à ressources élevées, moyennes et faibles, et nous constatons que MUG-Eval corrèle fortement avec des benchmarks établis (r > 0,75) tout en permettant des comparaisons standardisées entre les langues et les modèles. Notre cadre fournit une solution robuste et économe en ressources pour l'évaluation de la génération multilingue, qui peut être étendue à des milliers de langues.
Nous proposons RoPECraft, une méthode de transfert de mouvement vidéo sans apprentissage pour les transformateurs à diffusion, qui fonctionne uniquement en modifiant leurs embeddings positionnels rotatifs (RoPE). Nous extrayons d'abord le flux optique dense d'une vidéo de référence, puis utilisons les décalages de mouvement résultants pour déformer les tenseurs complexe-exponentiels de RoPE, encodant ainsi efficacement le mouvement dans le processus de génération. Ces embeddings sont ensuite optimisés davantage pendant les étapes de débruitage via un alignement de trajectoire entre les vitesses prédites et cibles, en utilisant un objectif de correspondance de flux. Pour maintenir la fidélité de la sortie à l'invite textuelle et éviter les générations en double, nous intégrons un terme de régularisation basé sur les composantes de phase de la transformée de Fourier de la vidéo de référence, projetant les angles de phase sur une variété lisse pour supprimer les artefacts haute fréquence. Les expériences sur des benchmarks révèlent que RoPECraft surpasse toutes les méthodes récemment publiées, à la fois qualitativement et quantitativement.
La compréhension métaphorique dans les images reste un défi majeur pour les systèmes d'IA, car les modèles existants peinent à saisir les implications culturelles, émotionnelles et contextuelles nuancées intégrées dans le contenu visuel. Bien que les modèles de langage multimodaux de grande taille (MLLMs) excellent dans les tâches de base de réponse à des questions visuelles (VQA), ils rencontrent une limitation fondamentale dans les tâches d'implication visuelle : des lacunes contextuelles qui obscurcissent les relations entre les différents éléments visuels et leurs significations abstraites. Inspirés par le processus cognitif humain, nous proposons Let Androids Dream (LAD), un nouveau cadre pour la compréhension et le raisonnement des implications visuelles. LAD aborde les lacunes contextuelles à travers un cadre en trois étapes : (1) Perception : conversion des informations visuelles en représentations textuelles riches et multi-niveaux, (2) Recherche : recherche itérative et intégration de connaissances interdomaines pour résoudre les ambiguïtés, et (3) Raisonnement : génération d'implications visuelles alignées sur le contexte via un raisonnement explicite. Notre cadre, associé au modèle léger GPT-4o-mini, atteint des performances de pointe par rapport à plus de 15 MLLMs sur un benchmark d'implication visuelle en anglais et montre une amélioration significative sur un benchmark en chinois, obtenant des résultats comparables au modèle GPT-4o sur les questions à choix multiples (MCQ) et surpassant de 36,7 % les questions à réponse ouverte (OSQ). De plus, notre travail apporte de nouvelles perspectives sur la manière dont l'IA peut interpréter plus efficacement les implications visuelles, faisant progresser le domaine du raisonnement vision-langage et de l'interaction humain-IA. Notre projet est disponible publiquement à l'adresse https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.
Les grands modèles de langage (LLMs) peuvent-ils admettre leurs erreurs lorsqu’ils devraient savoir mieux faire ? Dans ce travail, nous définissons le comportement consistant à reconnaître des erreurs dans des réponses précédemment générées comme une « rétractation » et cherchons à comprendre quand et pourquoi les LLMs choisissent de se rétracter. Nous construisons d’abord des ensembles de données spécifiques aux modèles pour évaluer si un modèle se rétractera d’une réponse incorrecte qui contredit ses propres connaissances paramétriques. Bien que les LLMs soient capables de se rétracter, ils le font rarement. Nous montrons que la rétractation est étroitement liée à des indicateurs précédemment identifiés de la croyance interne des modèles : les modèles ne se rétractent pas des réponses erronées qu’ils « croient » être factuellement correctes. Des expériences de pilotage démontrent en outre que la croyance interne influence causalement la rétractation du modèle. En particulier, lorsque le modèle ne croit pas en sa réponse, cela l’encourage non seulement à tenter de vérifier la réponse, mais modifie également le comportement d’attention lors de l’auto-vérification. Enfin, nous montrons qu’un simple fine-tuning supervisé améliore significativement les performances de rétractation en aidant le modèle à apprendre des croyances internes plus précises. Le code et les ensembles de données sont disponibles sur https://github.com/ayyyq/llm-retraction.
Les modèles vision-langage (VLMs) acquièrent des connaissances du monde réel et des capacités de raisonnement général à travers des corpus d'images-textes à l'échelle d'Internet. Ils peuvent enrichir les systèmes robotiques avec une compréhension de scène et une planification de tâches, et assister les politiques visuomotrices entraînées sur des données de trajectoires robotiques. Nous explorons le paradigme inverse - utiliser des données riches, réelles et multimodales de trajectoires robotiques pour améliorer et évaluer les VLMs. Dans cet article, nous présentons Robo2VLM, un cadre de génération de jeux de données de Question-Réponse Visuelle (VQA) pour les VLMs. Étant donnée une trajectoire robotique téléopérée par un humain, Robo2VLM dérive la vérité terrain à partir de modalités sensorielles non visuelles et non descriptives, telles que la pose de l'effecteur terminal, l'ouverture de la pince et la détection de force. Sur la base de ces modalités, il segmente la trajectoire robotique en une séquence de phases de manipulation. À chaque phase, Robo2VLM utilise la compréhension de la scène et des interactions pour identifier les propriétés 3D du robot, l'objectif de la tâche et l'objet cible. Ces propriétés sont utilisées pour générer des requêtes VQA représentatives - des images avec des questions à choix multiples textuelles - basées sur des modèles de questions de raisonnement spatial, conditionné par l'objectif et d'interaction. Nous avons constitué Robo2VLM-1, un jeu de données à grande échelle en conditions réelles avec 684 710 questions couvrant 463 scènes distinctes et 3 396 tâches de manipulation robotique issues de 176k trajectoires robotiques réelles. Les résultats suggèrent que Robo2VLM-1 peut évaluer et améliorer les capacités des VLMs en matière de raisonnement spatial et d'interaction.
Malgré les avancées significatives dans les modèles de vision et langage à grande échelle (LVLMs), un écart persiste, notamment en ce qui concerne leur interprétabilité et la manière dont ils localisent et interprètent les informations textuelles dans les images. Dans cet article, nous explorons divers LVLMs pour identifier les têtes spécifiques responsables de la reconnaissance de texte à partir d'images, que nous nommons les têtes de reconnaissance optique de caractères (OCR Head). Nos découvertes concernant ces têtes sont les suivantes : (1) Moins Sparse : Contrairement aux têtes de récupération précédentes, un grand nombre de têtes sont activées pour extraire des informations textuelles des images. (2) Qualitativement Distinctes : Les têtes OCR possèdent des propriétés qui diffèrent significativement des têtes de récupération générales, montrant une faible similarité dans leurs caractéristiques. (3) Statiquement Activées : La fréquence d'activation de ces têtes correspond étroitement à leurs scores OCR. Nous validons nos découvertes dans des tâches en aval en appliquant la chaîne de pensée (Chain-of-Thought, CoT) à la fois aux têtes OCR et aux têtes de récupération conventionnelles, et en masquant ces têtes. Nous démontrons également que la redistribution des valeurs des tokens-sink au sein des têtes OCR améliore les performances. Ces insights offrent une compréhension plus approfondie des mécanismes internes que les LVLMs utilisent pour traiter les informations textuelles intégrées dans les images.
Alors que les modèles vision-langage (VLMs) s'intègrent de plus en plus dans la vie quotidienne, la nécessité d'une compréhension précise de la culture visuelle devient cruciale. Cependant, ces modèles peinent souvent à interpréter efficacement les nuances culturelles. Les travaux antérieurs ont démontré l'efficacité de la génération augmentée par récupération (RAG) pour améliorer la compréhension culturelle dans des contextes textuels uniquement, tandis que son application dans des scénarios multimodaux reste peu explorée. Pour combler cette lacune, nous introduisons RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding), un nouveau benchmark conçu pour faire progresser la compréhension de la culture visuelle grâce à la récupération, en se concentrant sur deux tâches : la réponse à des questions visuelles centrées sur la culture (cVQA) et la génération de légendes d'images informées par la culture (cIC). RAVENEA étend les ensembles de données existants en intégrant plus de 10 000 documents Wikipédia sélectionnés et classés par des annotateurs humains. Avec RAVENEA, nous entraînons et évaluons sept récupérateurs multimodaux pour chaque requête d'image, et mesurons l'impact en aval des entrées augmentées par récupération sur quatorze VLMs de pointe. Nos résultats montrent que les VLMs légers, lorsqu'ils sont augmentés par une récupération consciente de la culture, surpassent leurs homologues non augmentés (d'au moins 3,2 % en absolu sur cVQA et 6,2 % en absolu sur cIC). Cela met en évidence la valeur des méthodes augmentées par récupération et des benchmarks culturellement inclusifs pour la compréhension multimodale.
Les tokenizers BPE modernes divisent souvent les dates calendaires en fragments dénués de sens, par exemple, 20250312 → 202, 503, 12, ce qui gonfle le nombre de tokens et masque la structure inhérente nécessaire à un raisonnement temporel robuste. Dans ce travail, nous (1) introduisons une métrique simple mais interprétable, appelée ratio de fragmentation des dates, qui mesure dans quelle mesure un tokenizer préserve les composants multidigits des dates ; (2) publions DateAugBench, une suite de 6500 exemples couvrant trois tâches de raisonnement temporel : la résolution de dates basée sur le contexte, les énigmes d'invariance de format, et l'arithmétique des dates à travers des régimes historiques, contemporains et futurs ; et (3) grâce à des analyses par sondage couche par couche et des analyses de sauts d'attention causale, nous découvrons un mécanisme émergent d'abstraction des dates par lequel les grands modèles de langage assemblent les fragments des composants mois, jour et année pour le raisonnement temporel. Nos expériences montrent qu'une fragmentation excessive corrèle avec des baisses de précision allant jusqu'à 10 points sur des dates inhabituelles comme les dates historiques et futuristes. De plus, nous constatons que plus le modèle est grand, plus rapidement l'abstraction émergente des dates qui répare les fragments est accomplie. Enfin, nous observons un chemin de raisonnement que les LLM suivent pour assembler les fragments de dates, différant généralement de l'interprétation humaine (année → mois → jour).
Nous présentons un nouveau jeu de données conçu pour évaluer les capacités de raisonnement physique et spatial des modèles de langage de grande taille (LLM) basé sur l'optimisation topologique, une méthode permettant de calculer les distributions optimales de matériaux dans un espace de conception soumis à des charges et des supports prédéfinis. Dans ce jeu de données, les LLM reçoivent des conditions telles que des limites 2D, des forces appliquées et des supports, et doivent raisonner sur la distribution optimale de matériau qui en résulte. Le jeu de données inclut une variété de tâches, allant du remplissage de régions masquées dans des structures partielles à la prédiction de distributions complètes de matériaux. La résolution de ces tâches nécessite de comprendre le flux des forces et la distribution de matériau requise sous des contraintes données, sans accès à des outils de simulation ou à des modèles physiques explicites, mettant ainsi les modèles au défi de raisonner sur la stabilité structurelle et l'organisation spatiale. Notre jeu de données vise à évaluer les capacités de raisonnement spatial et physique dans des contextes 2D, offrant une perspective complémentaire aux benchmarks traditionnels de langage et de logique.
En s'entraînant à synthétiser des images cohérentes à partir d'entrées perturbées, les modèles génératifs apprennent intrinsèquement à comprendre les limites des objets et les compositions de scènes. Comment pouvons-nous réutiliser ces représentations génératives pour l'organisation perceptive à usage général ? Nous affinons Stable Diffusion et MAE (encodeur+décodeur) pour la segmentation d'instances indépendante des catégories en utilisant exclusivement notre fonction de perte de coloration d'instances sur un ensemble restreint de types d'objets (meubles d'intérieur et voitures). Étonnamment, nos modèles montrent une forte généralisation en zero-shot, segmentant avec précision des objets de types et de styles non vus lors de l'affinage (et dans de nombreux cas, non vus non plus lors du pré-entraînement de MAE sur ImageNet-1K). Nos modèles les plus performants se rapprochent étroitement du SAM fortement supervisé lorsqu'ils sont évalués sur des types et styles d'objets non vus, et le surpassent lors de la segmentation de structures fines et de limites ambiguës. En revanche, les architectures de segmentation promptables existantes ou les modèles pré-entraînés de manière discriminative échouent à généraliser. Cela suggère que les modèles génératifs apprennent un mécanisme de regroupement inhérent qui se transfère à travers les catégories et les domaines, même sans pré-entraînement à l'échelle d'Internet. Le code, les modèles pré-entraînés et les démonstrations sont disponibles sur notre site web.
Les grands modèles audio-langage (LALMs) étendent les grands modèles de langage avec une compréhension multimodale de la parole, de l'audio, etc. Bien que leurs performances sur les tâches de traitement de la parole et de l'audio soient largement étudiées, leurs capacités de raisonnement restent peu explorées. En particulier, leur raisonnement multi-étapes, c'est-à-dire la capacité à rappeler et intégrer plusieurs faits, manque d'évaluation systématique. Les benchmarks existants se concentrent sur les tâches générales de traitement de la parole et de l'audio, les capacités conversationnelles et l'équité, mais négligent cet aspect. Pour combler cette lacune, nous introduisons SAKURA, un benchmark évaluant le raisonnement multi-étapes des LALMs basé sur des informations issues de la parole et de l'audio. Les résultats montrent que les LALMs peinent à intégrer les représentations de la parole et de l'audio pour un raisonnement multi-étapes, même lorsqu'ils extraient correctement les informations pertinentes, mettant en lumière un défi fondamental dans le raisonnement multimodal. Nos résultats révèlent une limitation critique des LALMs, offrant des perspectives et des ressources pour les recherches futures.