Articles de recherche en IA sélectionnés quotidiennement avec traductions
Des études récentes ont montré que les modèles de langage de grande taille (LLM) possèdent une certaine capacité à améliorer leurs réponses lorsqu'ils reçoivent un retour d'information externe. Cependant, il reste incertain à quel point ces modèles peuvent intégrer efficacement et de manière approfondie ce retour d'information extrinsèque. Dans un scénario idéal, si les LLM reçoivent un retour d'information quasi parfait et complet, on s'attendrait à ce qu'ils intègrent pleinement ce retour et modifient leurs réponses incorrectes pour les corriger. Dans cet article, nous étudions systématiquement la capacité des LLM à intégrer un retour d'information en concevant un environnement expérimental contrôlé. Pour chaque problème, un modèle de résolution tente une solution, puis un générateur de retour d'information ayant accès à des réponses de référence quasi complètes produit un retour ciblé, après quoi le modèle de résolution essaie à nouveau. Nous évaluons ce pipeline sur une gamme variée de tâches, incluant le raisonnement mathématique, le raisonnement de connaissances, le raisonnement scientifique et des évaluations multi-domaines générales avec des modèles de langage de pointe, y compris Claude 3.7 (avec et sans pensée étendue). Étonnamment, même dans ces conditions quasi idéales, les modèles de résolution montrent une résistance persistante au retour d'information, une limitation que nous nommons FRICTION DE RETOUR. Pour atténuer cette limitation, nous expérimentons avec des stratégies basées sur l'échantillonnage comme des augmentations progressives de la température et le rejet explicite des réponses incorrectes précédemment tentées, ce qui apporte des améliorations mais ne permet toujours pas aux modèles d'atteindre les performances cibles. Nous effectuons également une exploration rigoureuse des causes potentielles de la FRICTION DE RETOUR, en écartant des facteurs tels que la surconfiance du modèle et la familiarité avec les données. Nous espérons que la mise en lumière de ce problème dans les LLM et l'élimination de plusieurs causes apparentes aideront les recherches futures sur l'auto-amélioration.
Les agents basés sur des modèles de langage (LLM) orientés tâches sont de plus en plus utilisés dans des domaines soumis à des politiques strictes, telles que l'éligibilité aux remboursements ou les règles d'annulation. Le défi réside dans la garantie que l'agent adhère systématiquement à ces règles et politiques, refusant de manière appropriée toute demande qui les violerait, tout en maintenant une interaction utile et naturelle. Cela nécessite le développement de méthodologies de conception et d'évaluation sur mesure pour assurer la résilience de l'agent face aux comportements malveillants des utilisateurs. Nous proposons un nouveau modèle de menace qui se concentre sur les utilisateurs adversaires cherchant à exploiter des agents respectueux des politiques à des fins personnelles. Pour y remédier, nous présentons CRAFT, un système de red-teaming multi-agents qui exploite des stratégies persuasives conscientes des politiques pour compromettre un agent respectueux des politiques dans un scénario de service client, surpassant les méthodes conventionnelles de contournement telles que les prompts DAN, la manipulation émotionnelle et la coercition. En nous appuyant sur le benchmark existant tau-bench, nous introduisons tau-break, un benchmark complémentaire conçu pour évaluer rigoureusement la robustesse de l'agent face aux comportements manipulateurs des utilisateurs. Enfin, nous évaluons plusieurs stratégies de défense simples mais efficaces. Bien que ces mesures offrent une certaine protection, elles restent insuffisantes, soulignant la nécessité de protections plus solides, fondées sur la recherche, pour protéger les agents respectueux des politiques contre les attaques adverses.
Les modèles de diffusion discrète à état uniforme promettent une génération rapide de texte grâce à leur capacité intrinsèque à s'autocorriger. Cependant, ils sont généralement surpassés par les modèles autorégressifs et les modèles de diffusion masquée. Dans ce travail, nous réduisons cet écart de performance en exploitant une idée clé : les processus de diffusion à état uniforme émergent naturellement d'une diffusion gaussienne sous-jacente. Notre méthode, Duo, transfère des techniques puissantes issues de la diffusion gaussienne pour améliorer à la fois l'entraînement et l'échantillonnage. Premièrement, nous introduisons une stratégie d'apprentissage curriculaire guidée par le processus gaussien, doublant la vitesse d'entraînement en réduisant la variance. Les modèles entraînés avec cette approche surpassent les modèles autorégressifs en perplexité zero-shot sur 3 des 7 benchmarks. Deuxièmement, nous présentons la Distillation de Consistance Discrète, qui adapte la distillation de consistance du cadre continu au cadre discret. Cet algorithme permet une génération en quelques étapes dans les modèles de diffusion de langage en accélérant l'échantillonnage de deux ordres de grandeur. Nous mettons à disposition le code et les points de contrôle des modèles sur la page du projet : http://s-sahoo.github.io/duo
Nous présentons un cadre basé sur la diffusion qui réalise la génération d'images et de géométries de nouvelles vues alignées via une méthodologie de déformation et d'inpainting. Contrairement aux méthodes antérieures nécessitant des images posées denses ou des modèles génératifs intégrant la pose limités à des vues dans le domaine, notre approche exploite des prédicteurs de géométrie prêts à l'emploi pour prédire des géométries partielles vues à partir d'images de référence, et formule la synthèse de nouvelles vues comme une tâche d'inpainting pour à la fois l'image et la géométrie. Pour garantir un alignement précis entre les images générées et la géométrie, nous proposons une distillation d'attention intermodale, où les cartes d'attention de la branche de diffusion d'image sont injectées dans une branche parallèle de diffusion de géométrie pendant l'entraînement et l'inférence. Cette approche multitâche produit des effets synergiques, facilitant une synthèse d'image géométriquement robuste ainsi qu'une prédiction de géométrie bien définie. Nous introduisons également un conditionnement de maillage basé sur la proximité pour intégrer des indices de profondeur et de normale, interpolant entre un nuage de points et filtrant les géométries prédites de manière erronée afin d'éviter qu'elles n'influencent le processus de génération. Empiriquement, notre méthode atteint une synthèse de vues extrapolative de haute fidélité à la fois pour l'image et la géométrie sur une gamme de scènes inédites, offre une qualité de reconstruction compétitive dans des paramètres d'interpolation, et produit des nuages de points colorés géométriquement alignés pour une complétion 3D complète. La page du projet est disponible à l'adresse https://cvlab-kaist.github.io/MoAI.
Des rapports récents affirment que les grands modèles de langage (LLM) surpassent désormais les humains d'élite en programmation compétitive. En nous appuyant sur les connaissances d'un groupe de médaillés de concours internationaux d'algorithmique, nous réexaminons cette affirmation, en explorant comment les LLM diffèrent des experts humains et où subsistent des limitations. Nous présentons LiveCodeBench Pro, un benchmark composé de problèmes issus de Codeforces, ICPC et IOI, continuellement mis à jour pour réduire les risques de contamination des données. Une équipe de médaillés olympiques annote chaque problème selon des catégories algorithmiques et effectue une analyse ligne par ligne des soumissions générées par les modèles qui échouent. En utilisant ces nouvelles données et ce benchmark, nous constatons que les modèles de pointe présentent encore des limitations significatives : sans outils externes, le meilleur modèle n'atteint que 53 % de réussite (pass@1) sur des problèmes de difficulté moyenne et 0 % sur des problèmes difficiles, des domaines où les experts humains excellent toujours. Nous observons également que les LLM réussissent bien sur les problèmes axés sur l'implémentation, mais peinent avec le raisonnement algorithmique nuancé et l'analyse de cas complexes, générant souvent des justifications incorrectes mais confiantes. La haute performance semble largement motivée par la précision d'implémentation et l'augmentation par outils, et non par un raisonnement supérieur. LiveCodeBench Pro met ainsi en lumière l'écart significatif par rapport aux niveaux des grands maîtres humains, tout en offrant des diagnostics détaillés pour orienter les futures améliorations du raisonnement des LLM centré sur le code.
Les grands modèles de langage (LLM) rencontrent des difficultés liées aux exigences de mémoire croissantes du cache clé-valeur (KV) à mesure que les longueurs de contexte augmentent. Les méthodes de compression existantes uniformisent les dimensions des têtes ou reposent sur l'élagage de tokens guidé par l'attention, sacrifiant souvent la précision ou introduisant une surcharge computationnelle. Nous proposons FourierAttention, un cadre sans entraînement qui exploite les rôles hétérogènes des dimensions des têtes de transformateur : les dimensions inférieures privilégient le contexte local, tandis que les dimensions supérieures capturent les dépendances à longue portée. En projetant les dimensions insensibles au contexte long sur des bases de Fourier orthogonales, FourierAttention approxime leur évolution temporelle avec des coefficients spectraux de longueur fixe. Les évaluations sur les modèles LLaMA montrent que FourierAttention atteint la meilleure précision en contexte long sur LongBench et Needle-In-A-Haystack (NIAH). Par ailleurs, un noyau Triton personnalisé, FlashFourierAttention, est conçu pour optimiser la mémoire via des opérations de lecture-écriture rationalisées, permettant un déploiement efficace sans compromis sur les performances.
L'apprentissage par renforcement (RL) a démontré une grande efficacité pour le réglage fin des grands modèles de langage (LLMs) en utilisant des tâches à la fois complexes et facilement vérifiables, telles que le raisonnement mathématique ou la génération de code. Cependant, l'extension de ce succès à la perception visuelle dans les modèles vision-langage (VLMs) a été entravée par la rareté des tâches centrées sur la vision qui sont simultanément difficiles et vérifiables de manière non ambiguë. À cette fin, nous introduisons ViCrit (Visual Caption Hallucination Critic), une tâche proxy de RL qui entraîne les VLMs à localiser une hallucination visuelle synthétique subtile injectée dans des paragraphes de descriptions d'images écrites par des humains. À partir d'une description de 200 mots, nous injectons une seule erreur visuelle subtile—modifiant quelques mots concernant les objets, les attributs, les quantités ou les relations spatiales—et demandons au modèle d'identifier le segment corrompu en fonction de l'image et de la description modifiée. Cette formulation préserve toute la difficulté perceptive tout en fournissant une récompense binaire et exacte, facile à calculer et non ambiguë. Les modèles entraînés avec la tâche ViCrit montrent des gains substantiels sur une variété de benchmarks VL. De manière cruciale, les améliorations se transfèrent au-delà des données d'entraînement sur des images naturelles vers le raisonnement sur des images abstraites et les mathématiques visuelles, montrant des promesses d'apprentissage à percevoir plutôt que de simplement mémoriser les objets vus. Pour faciliter l'évaluation, nous introduisons également ViCrit-Bench, un benchmark diagnostique équilibré par catégorie qui sonde systématiquement les erreurs de perception à travers divers domaines d'images et types d'erreurs. Ensemble, nos résultats démontrent que la critique fine des hallucinations est un objectif efficace et généralisable pour améliorer la perception visuelle dans les VLMs.
Les grands modèles de langage ont montré des promesses dans la prise de décision clinique, mais les approches actuelles peinent à localiser et corriger les erreurs à des étapes spécifiques du processus de raisonnement. Cette limitation est cruciale en médecine, où l'identification et la correction des erreurs de raisonnement sont essentielles pour un diagnostic précis et des soins efficaces aux patients. Nous présentons Med-PRM, un cadre de modélisation de récompense de processus qui exploite la génération augmentée par recherche pour vérifier chaque étape de raisonnement par rapport à des bases de connaissances médicales établies. En vérifiant les étapes intermédiaires de raisonnement avec des preuves extraites des directives cliniques et de la littérature, notre modèle peut évaluer de manière fine et précise la qualité du raisonnement. Les évaluations sur cinq benchmarks de questions-réponses médicales et deux tâches de diagnostic ouvert démontrent que Med-PRM atteint des performances de pointe, améliorant les performances des modèles de base jusqu'à 13,50 % grâce à Med-PRM. De plus, nous démontrons la généralité de Med-PRM en l'intégrant de manière plug-and-play avec des modèles de politique robustes tels que Meerkat, atteignant pour la première fois une précision de plus de 80 % sur MedQA avec des modèles à petite échelle de 8 milliards de paramètres. Notre code et nos données sont disponibles à l'adresse : https://med-prm.github.io/
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) s'est avéré efficace pour entraîner des modèles de langage de grande taille (LLMs) sur des tâches de raisonnement complexes, telles que la résolution de problèmes mathématiques. Une condition préalable à l'évolutivité du RLVR est un ensemble de problèmes de haute qualité avec des réponses précises et vérifiables. Cependant, la rareté des problèmes mathématiques soigneusement annotés par des humains et des réponses à vérification limitée dans les ensembles de données synthétiques orientés vers la distillation limite leur efficacité dans l'apprentissage par renforcement. De plus, la plupart des stratégies de synthèse de problèmes élargissent l'ensemble de problèmes de manière indiscriminée sans tenir compte des capacités du modèle, ce qui entraîne une faible efficacité dans la génération de questions utiles. Pour atténuer ce problème, nous introduisons un cadre de synthèse de problèmes axé sur la conscience de soi et les faiblesses (SwS) qui identifie systématiquement les lacunes du modèle et les exploite pour l'augmentation des problèmes. Plus précisément, nous définissons les faiblesses comme des questions que le modèle échoue systématiquement à apprendre à travers son échantillonnage itératif lors de l'entraînement par renforcement. Nous extrayons ensuite les concepts clés de ces cas d'échec et synthétisons de nouveaux problèmes pour renforcer les zones faibles du modèle lors des entraînements ultérieurs, lui permettant ainsi de se concentrer sur ses faiblesses et de les surmonter progressivement. Sans recourir à la distillation de connaissances externes, notre cadre permet une généralisation robuste en permettant au modèle d'identifier et de corriger ses propres faiblesses dans l'apprentissage par renforcement, entraînant des gains de performance moyens de 10,0 % et 7,7 % sur des modèles de 7B et 32B à travers huit benchmarks de raisonnement courants.
Les encodeurs de vision de base sont devenus essentiels pour une large gamme de tâches de vision dense. Cependant, leurs sorties de caractéristiques spatiales à faible résolution nécessitent un suréchantillonnage des caractéristiques pour produire les modalités à haute résolution requises pour les tâches en aval. Dans ce travail, nous présentons JAFAR, un suréchantillonneur de caractéristiques léger et flexible qui améliore la résolution spatiale des caractéristiques visuelles de tout encodeur de vision de base à une résolution cible arbitraire. JAFAR utilise un module basé sur l'attention conçu pour promouvoir l'alignement sémantique entre les requêtes à haute résolution, dérivées des caractéristiques de bas niveau de l'image, et les clés à faible résolution enrichies sémantiquement, en utilisant la modulation par transformation de caractéristiques spatiales (SFT). Notamment, malgré l'absence de supervision à haute résolution, nous démontrons que l'apprentissage à des ratios de suréchantillonnage et des résolutions faibles se généralise remarquablement bien à des échelles de sortie significativement plus élevées. Des expériences approfondies montrent que JAFAR récupère efficacement les détails spatiaux fins et surpasse systématiquement les méthodes existantes de suréchantillonnage de caractéristiques sur un ensemble diversifié de tâches en aval. Page du projet à l'adresse https://jafar-upsampler.github.io
Les travaux récents ont démontré l'efficacité de l'apprentissage par renforcement (RL) dans l'amélioration des capacités de raisonnement des grands modèles de langage (LLMs). En particulier, l'optimisation de politique relative par groupe (Group Relative Policy Optimization, GRPO) a montré un succès impressionnant en utilisant un algorithme de renforcement de type PPO avec des récompenses normalisées par groupe. Cependant, l'application de GRPO aux modèles de langage pour vidéos (Video LLMs) a été moins étudiée. Dans cet article, nous explorons GRPO pour les Video LLMs et identifions deux problèmes principaux qui entravent son apprentissage efficace : (1) la dépendance aux mécanismes de sécurité, et (2) le problème de l'avantage qui s'évanouit. Pour atténuer ces défis, nous proposons DeepVideo-R1, un modèle de langage pour vidéos entraîné avec notre version Reg-GRPO (GRPO régressif) et une stratégie d'augmentation de données adaptée à la difficulté. Reg-GRPO reformule l'objectif de GRPO en une tâche de régression, prédisant directement l'avantage dans GRPO. Cette conception élimine le besoin de mécanismes de sécurité comme le clipping et les fonctions min, facilitant ainsi un guidage plus direct de la politique en alignant le modèle sur les valeurs d'avantage. Nous concevons également une stratégie d'augmentation de données adaptée à la difficulté qui enrichit dynamiquement les échantillons d'entraînement à des niveaux de difficulté solubles, favorisant des signaux de récompense diversifiés et informatifs. Nos expériences approfondies montrent que DeepVideo-R1 améliore significativement les performances de raisonnement vidéo sur plusieurs benchmarks de raisonnement vidéo.
Les architectures récurrentes modernes, telles que xLSTM et Mamba, ont récemment remis en question le Transformer dans le domaine de la modélisation du langage. Cependant, leur structure limite leur applicabilité aux séquences uniquement ou nécessite le traitement de structures de données multidimensionnelles, telles que les images ou les graphes moléculaires, selon un ordre séquentiel prédéfini. En revanche, les réseaux de neurones récurrents multidimensionnels (MDRNNs) sont bien adaptés aux données présentant une structure de niveau supérieur, comme les grilles 2D, les arbres et les graphes orientés acycliques (DAGs). Dans ce travail, nous étendons la notion de multidimensionnalité aux RNNs linéaires. Nous introduisons les réseaux de transition de source linéaire parallélisables (pLSTMs) utilisant des portes de Source, de Transition et de Marque qui agissent sur le graphe linéaire d'un DAG général. Cela permet une parallélisation analogue aux scans associatifs parallèles et à la forme récurrente par blocs des RNNs linéaires séquentiels, mais pour les DAGs. Pour les grilles régulières (1D et 2D), comme les images, ce schéma peut être implémenté efficacement à l'aide d'opérations einsum, de concaténations et de remplissages en temps logarithmique. Les pLSTMs abordent le problème de la disparition/explosion des activations/gradients sur de longues distances dans les DAGs via deux modes distincts : un mode de propagation dirigée (mode P) et un mode de distribution diffuse (mode D). Pour mettre en avant les capacités à longue portée des pLSTMs, nous introduisons l'extrapolation de pointage de flèche comme une tâche synthétique de vision par ordinateur contenant des informations directionnelles à longue distance. Nous démontrons que les pLSTMs généralisent bien à des tailles d'images plus grandes, alors que les Transformers peinent à extrapoler. Sur des benchmarks établis en vision par ordinateur et en graphes moléculaires, les pLSTMs montrent également de solides performances. Le code et les jeux de données sont disponibles à l'adresse suivante : https://github.com/ml-jku/plstm_experiments.
Le Transformer est devenu le standard de facto pour les grands modèles de langage et une large gamme de tâches en aval dans divers domaines. Malgré ses nombreux avantages, comme le parallélisme inhérent à son entraînement, le Transformer reste confronté à des défis majeurs en raison de son incapacité à traiter efficacement des séquences dépassant une fenêtre de contexte fixe et de la complexité quadratique de son mécanisme d'attention. Ces défis ont ravivé l'intérêt pour les architectures de type RNN, qui offrent une mise à l'échelle linéaire avec la longueur des séquences et une meilleure gestion des dépendances à long terme, bien qu'elles soient limitées en parallélisme en raison de leur nature récurrente intrinsèque. Dans cet article, nous proposons Avey, une nouvelle architecture neuronale fondamentale qui s'éloigne à la fois de l'attention et de la récurrence. Avey se compose d'un classifieur et d'un processeur neuronal autorégressif, qui collaborent pour identifier et contextualiser uniquement les tokens les plus pertinents pour un token donné, indépendamment de leur position dans la séquence. Plus précisément, Avey dissocie la longueur de la séquence de la largeur du contexte, permettant ainsi un traitement efficace de séquences de longueur arbitraire. Les résultats expérimentaux montrent qu'Avey se compare favorablement au Transformer sur une variété de benchmarks NLP standard à courte portée, tout en excellant particulièrement dans la capture des dépendances à long terme.
L'édition vidéo utilisant des modèles de diffusion a obtenu des résultats remarquables dans la génération de modifications de haute qualité pour les vidéos. Cependant, les méthodes actuelles reposent souvent sur un pré-entraînement à grande échelle, limitant la flexibilité pour des modifications spécifiques. L'édition guidée par la première image permet un contrôle sur cette dernière, mais manque de flexibilité pour les images suivantes. Pour résoudre ce problème, nous proposons une méthode d'adaptation basée sur des masques utilisant LoRA (Low-Rank Adaptation), qui adapte des modèles pré-entraînés Image-à-Vidéo (I2V) pour une édition vidéo flexible. Notre approche préserve les régions de l'arrière-plan tout en permettant une propagation contrôlée des modifications. Cette solution offre une édition vidéo efficace et adaptable sans altérer l'architecture du modèle. Pour mieux guider ce processus, nous intégrons des références supplémentaires, telles que des points de vue alternatifs ou des états de scène représentatifs, qui servent d'ancres visuelles pour le déroulement du contenu. Nous abordons le défi du contrôle en utilisant une stratégie d'adaptation LoRA pilotée par des masques, qui adapte un modèle pré-entraîné Image-à-Vidéo au contexte d'édition. Le modèle doit apprendre à partir de deux sources distinctes : la vidéo d'entrée fournit des indices de structure spatiale et de mouvement, tandis que les images de référence offrent des indications d'apparence. Un masque spatial permet un apprentissage spécifique à une région en modulant dynamiquement ce à quoi le modèle prête attention, garantissant que chaque zone s'inspire de la source appropriée. Les résultats expérimentaux montrent que notre méthode atteint des performances d'édition vidéo supérieures par rapport aux méthodes de pointe.
Les récentes avancées dans les modèles multimodaux de grande taille (LMMs) ont considérablement amélioré la compréhension et la génération multimodales. Cependant, ces modèles peinent encore à générer des sorties image-texte étroitement imbriquées, principalement en raison de l'échelle limitée, de la qualité et de la richesse instructionnelle des ensembles de données d'entraînement actuels. Pour remédier à cela, nous introduisons InterSyn, un ensemble de données multimodal à grande échelle construit à l'aide de notre méthode d'auto-évaluation avec raffinement itératif (SEIR). InterSyn propose des dialogues multi-tours pilotés par des instructions avec des réponses image-texte étroitement imbriquées, offrant une diversité d'objets riche et un raffinement de qualité automatisé rigoureux, le rendant bien adapté pour l'entraînement des LMMs de nouvelle génération suivant des instructions. De plus, pour pallier le manque d'outils d'évaluation fiables capables d'évaluer les sorties multimodales imbriquées, nous introduisons SynJudge, un modèle d'évaluation automatique conçu pour évaluer quantitativement les sorties multimodales selon quatre dimensions : le contenu textuel, le contenu visuel, la qualité de l'image et la synergie image-texte. Les études expérimentales montrent que la méthode SEIR conduit à une qualité d'ensemble de données substantiellement supérieure par rapport à un processus identique sans raffinement. De plus, les LMMs entraînés sur InterSyn obtiennent des gains de performance uniformes sur toutes les métriques d'évaluation, confirmant l'utilité d'InterSyn pour faire progresser les systèmes multimodaux.
Les robots humanoïdes présentent un potentiel significatif pour accomplir des tâches quotidiennes dans divers environnements grâce à leur flexibilité et leur morphologie proche de l'humain. Les travaux récents ont réalisé des progrès notables dans le contrôle global du corps et la loco-manipulation des humanoïdes en exploitant le contrôle optimal ou l'apprentissage par renforcement. Cependant, ces méthodes nécessitent un réglage fastidieux spécifique à chaque tâche pour obtenir des comportements satisfaisants, ce qui limite leur polyvalence et leur évolutivité face à des tâches variées dans des scénarios quotidiens. Pour pallier cela, nous présentons SkillBlender, un nouveau cadre d'apprentissage par renforcement hiérarchique pour la loco-manipulation polyvalente des humanoïdes. SkillBlender pré-entraîne d'abord des compétences primitives agnostiques aux tâches et conditionnées par un objectif, puis combine dynamiquement ces compétences pour accomplir des tâches complexes de loco-manipulation avec un minimum d'ingénierie de récompense spécifique à la tâche. Nous introduisons également SkillBench, un benchmark simulé parallèle, trans-embodiment et diversifié contenant trois embodiments, quatre compétences primitives et huit tâches de loco-manipulation difficiles, accompagné d'un ensemble de métriques d'évaluation scientifiques équilibrant précision et faisabilité. Des expériences simulées approfondies montrent que notre méthode surpasse significativement toutes les approches de référence, tout en régularisant naturellement les comportements pour éviter le piratage des récompenses, ce qui se traduit par des mouvements plus précis et réalisables pour diverses tâches de loco-manipulation dans nos scénarios quotidiens. Notre code et notre benchmark seront mis à disposition de la communauté pour faciliter les recherches futures. Page du projet : https://usc-gvl.github.io/SkillBlender-web/.
Le redimensionnement au moment du test est apparu comme une approche efficace pour améliorer les performances des modèles de langage en utilisant des ressources de calcul supplémentaires lors de l'inférence. Des études récentes ont montré que le remplacement des jetons de fin de réflexion (par exemple, remplacer "</think>" par "Wait") peut prolonger les étapes de raisonnement et améliorer la précision. Dans ce travail, nous explorons si un jeton dédié de continuation de réflexion peut être appris pour déclencher un raisonnement prolongé. Nous enrichissons une version distillée de DeepSeek-R1 avec un seul jeton appris "<|continue-thinking|>", en entraînant uniquement son plongement via l'apprentissage par renforcement tout en gardant les poids du modèle gelés. Nos expériences montrent que ce jeton appris permet d'obtenir une précision améliorée sur des benchmarks mathématiques standards par rapport à la fois au modèle de base et à une approche de redimensionnement au moment du test qui utilise un jeton fixe (par exemple, "Wait") pour forcer le budget. En particulier, nous observons que dans les cas où l'approche à jeton fixe améliore la précision du modèle de base, notre méthode permet une amélioration nettement plus importante. Par exemple, sur le benchmark GSM8K, l'approche à jeton fixe entraîne une amélioration absolue de la précision de 1,3 %, tandis que notre méthode à jeton appris permet une amélioration de 4,2 % par rapport au modèle de base qui n'utilise pas de forçage de budget.
Pour que les modèles de langage de grande taille (LLMs) puissent être déployés de manière fiable dans des domaines quotidiens et à enjeux élevés, savoir quand ne pas répondre est tout aussi crucial que de répondre correctement. Les requêtes des utilisateurs dans le monde réel, qui peuvent être sous-spécifiées, mal posées ou fondamentalement impossibles à répondre, exigent que les LLMs raisonnent sur l'incertitude et s'abstiennent de manière sélective — c'est-à-dire refusent de répondre de manière définitive. Cependant, l'abstention reste peu étudiée, sans cadre d'évaluation systématique pour les LLMs modernes. Dans ce travail, nous introduisons AbstentionBench, un benchmark à grande échelle pour évaluer de manière holistique l'abstention sur 20 ensembles de données divers, incluant des questions avec des réponses inconnues, de la sous-spécification, des prémisses fausses, des interprétations subjectives et des informations obsolètes. L'évaluation de 20 LLMs de pointe révèle que l'abstention est un problème non résolu, et un domaine où la mise à l'échelle des modèles est peu utile. Bien que les LLMs récents de raisonnement aient montré des résultats impressionnants dans la résolution de problèmes complexes, étonnamment, nous constatons que le fine-tuning de raisonnement dégrade l'abstention (de 24 % en moyenne), même pour les domaines des mathématiques et des sciences sur lesquels les modèles de raisonnement sont explicitement entraînés. Nous constatons que bien qu'une invite système soigneusement conçue puisse améliorer l'abstention en pratique, elle ne résout pas l'incapacité fondamentale des modèles à raisonner sur l'incertitude. Nous publions AbstentionBench pour favoriser la recherche visant à améliorer la fiabilité des LLMs.
Nous proposons un cadre d’auto-affinement qui améliore les performances de la reconnaissance automatique de la parole (ASR) en utilisant uniquement des ensembles de données non annotées. Le processus commence par un modèle ASR existant générant des pseudo-étiquettes sur des données vocales non annotées, qui sont ensuite utilisées pour entraîner un système de synthèse vocale de haute fidélité (TTS). Ensuite, les paires de parole synthétisée et de texte sont intégrées dans le système ASR d’origine, complétant ainsi le cycle d’auto-amélioration en boucle fermée. Nous avons démontré l’efficacité de ce cadre sur des données de parole en mandarin taïwanais. En exploitant 6 000 heures de parole non annotée, une quantité modérée de données textuelles et du contenu synthétique généré par des modèles d’intelligence artificielle, nous avons adapté Whisper-large-v2 en un modèle spécialisé, Twister. Twister réduit les taux d’erreur jusqu’à 20 % sur des benchmarks en mandarin et jusqu’à 50 % sur des benchmarks de code-switching mandarin-anglais par rapport à Whisper. Les résultats mettent en évidence ce cadre comme une alternative convaincante aux approches d’auto-distillation par pseudo-étiquetage et offrent une voie pratique pour améliorer les performances de l’ASR dans des contextes à ressources limitées ou spécifiques à un domaine.
Ce travail se concentre sur une limitation observée des encodeurs de texte : les embeddings peuvent ne pas être capables de reconnaître des entités ou des événements à granularité fine au sein de la sémantique, entraînant un échec de la recherche dense même dans des cas simples. Pour examiner ces comportements, nous introduisons d'abord un nouveau jeu de données d'évaluation en chinois, nommé CapRetrieval, dont les passages sont des légendes d'images et les requêtes sont des phrases interrogeant des entités ou des événements sous diverses formes. L'évaluation en zero-shot suggère que les encodeurs peuvent échouer sur ces correspondances à granularité fine, indépendamment des sources d'entraînement ou de la taille des modèles. Visant une amélioration, nous procédons ensuite à l'affinement des encodeurs avec nos stratégies proposées de génération de données, ce qui permet d'obtenir les meilleures performances sur CapRetrieval. Au cours de ce processus, nous identifions en outre un problème de dilemme de granularité, un défi pour les embeddings à exprimer une saillance fine tout en s'alignant sur la sémantique globale. Notre jeu de données, code et modèles dans ce travail sont publiquement disponibles à l'adresse https://github.com/lxucs/CapRetrieval.
Les récents efforts pour exploiter le modèle de langage multimodal à grande échelle (MLLM) en tant qu'agents d'interface graphique (GUI) ont donné des résultats prometteurs. Cependant, ces agents rencontrent encore des difficultés avec les tâches à long terme dans des environnements en ligne, principalement en raison d'une connaissance insuffisante et de l'écart inhérent entre les domaines hors ligne et en ligne. Dans cet article, inspirés par la manière dont les humains généralisent les connaissances dans des environnements ouverts, nous proposons un module de compétences multimodales hiérarchiques (HMS) pour résoudre le problème de l'insuffisance des connaissances. Ce module abstrait progressivement les trajectoires en compétences d'exécution, compétences de base, et finalement méta-compétences, fournissant ainsi une structure de connaissances hiérarchique pour la planification de tâches à long terme. Pour combler l'écart entre les domaines, nous proposons l'algorithme de recherche arborescente Monte Carlo augmentée par les compétences (SA-MCTS), qui exploite efficacement les compétences acquises dans des environnements hors ligne pour réduire l'espace de recherche d'actions lors de l'exploration arborescente en ligne. En nous appuyant sur HMS, nous proposons Mirage-1, un agent GUI multimodal, multiplateforme et plug-and-play. Pour valider les performances de Mirage-1 dans des scénarios réels à long terme, nous avons construit un nouveau benchmark, AndroidLH. Les résultats expérimentaux montrent que Mirage-1 surpasse les agents précédents de 32 %, 19 %, 15 % et 79 % sur AndroidWorld, MobileMiniWob++, Mind2Web-Live et AndroidLH, respectivement. Page du projet : https://cybertronagent.github.io/Mirage-1.github.io/
Les modèles de langage de grande taille (LLMs) démontrent des performances solides dans des applications réelles, mais les ensembles de données d'instructions open-source existants se concentrent souvent sur des domaines restreints, tels que les mathématiques ou la programmation, limitant ainsi la généralisation et élargissant l'écart avec les modèles propriétaires. Pour combler cet écart, nous introduisons Infinity-Instruct, un ensemble de données d'instructions de haute qualité conçu pour améliorer à la fois les capacités fondamentales et conversationnelles des LLMs grâce à un pipeline en deux phases. Dans la Phase 1, nous sélectionnons 7,4 millions d'instructions fondamentales de haute qualité (InfInstruct-F-7.4M) parmi plus de 100 millions d'échantillons en utilisant des techniques hybrides de sélection de données. Dans la Phase 2, nous synthétisons 1,5 million d'instructions conversationnelles de haute qualité (InfInstruct-G-1.5M) via un processus en deux étapes incluant la sélection, l'évolution et le filtrage diagnostique des instructions. Nous évaluons empiriquement Infinity-Instruct en affinant plusieurs modèles open-source, notamment Mistral, LLaMA, Qwen et Yi, et observons des gains de performance substantiels à la fois sur les benchmarks fondamentaux et de suivi d'instructions, surpassant systématiquement les versions officielles ajustées aux instructions. Notamment, InfInstruct-LLaMA3.1-70B surpasse GPT-4-0314 de 8,6 % sur les tâches de suivi d'instructions tout en atteignant des performances fondamentales comparables. Ces résultats mettent en évidence la synergie entre l'entraînement fondamental et conversationnel et offrent de nouvelles perspectives sur le développement holistique des LLMs. Notre ensemble de données https://huggingface.co/datasets/BAAI/Infinity-Instruct et nos codes https://gitee.com/li-touch/infinity-instruct ont été rendus publics.
La détection des mèmes nuisibles est essentielle pour préserver l'intégrité des environnements en ligne. Cependant, les approches actuelles peinent souvent à concilier efficacité des ressources, flexibilité et explicabilité, limitant ainsi leur déploiement pratique dans les systèmes de modération de contenu. Pour relever ces défis, nous introduisons U-CoT+, un nouveau cadre pour la détection des mèmes nuisibles. Plutôt que de s'appuyer uniquement sur l'incitation ou le réglage fin de modèles multimodaux, nous développons d'abord un pipeline de haute fidélité qui convertit les mèmes visuels en descriptions textuelles préservant les détails. Cette conception dissocie l'interprétation des mèmes de leur classification, évitant ainsi un raisonnement immédiat sur un contenu visuel brut complexe et permettant une détection efficace des mèmes nuisibles avec des modèles de langage généralistes (LLMs) à grande échelle. En s'appuyant sur ces descriptions textuelles, nous intégrons en outre des directives ciblées et interprétables, conçues par des humains, pour guider le raisonnement des modèles sous l'incitation zero-shot CoT. Ainsi, ce cadre permet une adaptation facile à différents critères de détection de la nocivité selon les plateformes, les régions et au fil du temps, offrant une grande flexibilité et explicabilité. Des expériences approfondies sur sept ensembles de données de référence valident l'efficacité de notre cadre, mettant en évidence son potentiel pour une détection explicable et à faible ressource des mèmes nuisibles en utilisant des LLMs à petite échelle. Les codes et les données sont disponibles à l'adresse : https://anonymous.4open.science/r/HMC-AF2B/README.md.
Le paradigme standard pour résoudre des tâches de codage via des modèles de langage de grande taille (LLMs) consiste à générer puis classer des programmes, cette dernière étape utilisant un vérificateur dans le processus de classement. Le consensus grandissant est qu'un vérificateur complet (par exemple, une suite de tests exhaustive) devrait être privilégié par rapport à un modèle de récompense basé sur les résultats (ORM) chaque fois que possible, avec peu de considération pour les compromis impliqués. Nous cherchons à remettre en question cette hypothèse en explorant systématiquement le compromis entre vitesse et précision. Nous constatons que les ORMs jouent un rôle crucial dans la mise à l'échelle de la vérification en échangeant de la précision contre de la vitesse, même lorsqu'un vérificateur complet est disponible. Leur valeur devient particulièrement évidente lorsqu'ils sont utilisés dans une approche de génération-élagage-puis-classement, où un vérificateur plus rapide mais moins précis élimine les solutions incorrectes avant le classement — conduisant à un système 11,65 fois plus rapide tout en étant seulement 8,33 % moins précis que la suite de tests complète. Nous analysons l'approche de génération-élagage-puis-classement et montrons qu'elle fonctionne en filtrant les solutions incorrectes mais fortement classées. Ces résultats permettent la conception de systèmes de classement de programmes à la fois évolutifs et précis.
Nous présentons une méthode basée sur l'attention qui utilise des masques d'attention binaires appris pour garantir que seules les régions d'image attentives influencent la prédiction. Le contexte peut fortement affecter la perception des objets, conduisant parfois à des représentations biaisées, en particulier lorsque les objets apparaissent dans des arrière-plans hors distribution. Parallèlement, de nombreuses tâches centrées sur les objets au niveau de l'image nécessitent d'identifier les régions pertinentes, ce qui exige souvent du contexte. Pour résoudre ce dilemme, nous proposons un cadre en deux étapes : la première étape traite l'image entière pour découvrir les parties de l'objet et identifier les régions pertinentes pour la tâche, tandis que la deuxième étape exploite un masquage d'attention en entrée pour restreindre son champ réceptif à ces régions, permettant une analyse ciblée tout en filtrant les informations potentiellement fallacieuses. Les deux étapes sont entraînées conjointement, permettant à la deuxième étape d'affiner la première. Des expériences approfondies sur divers benchmarks démontrent que notre approche améliore significativement la robustesse contre les corrélations fallacieuses et les arrière-plans hors distribution.
Récemment, les modèles de langage de grande taille (LLMs) ont démontré un potentiel significatif pour l'annotation de données, réduisant considérablement les coûts de main-d'œuvre associés aux applications en aval. Cependant, les méthodes existantes adoptent principalement une stratégie agressive en incitant le LLM à déterminer une seule étiquette de référence pour chaque échantillon non étiqueté. En raison de l'incertitude inhérente aux LLMs, ils produisent souvent des étiquettes incorrectes pour les échantillons difficiles, compromettant gravement la qualité des données pour les applications en aval. Motivés par l'aversion à l'ambiguïté observée dans les comportements humains, nous proposons un nouveau paradigme d'annotation candidat dans lequel les modèles de langage de grande taille sont encouragés à produire toutes les étiquettes possibles en cas d'incertitude. Pour garantir que des étiquettes uniques soient fournies pour les tâches en aval, nous développons un cadre enseignant-élève, CanDist, qui distille les annotations candidates avec un modèle de langage de petite taille (SLM). Nous fournissons également une justification rigoureuse démontrant que la distillation des annotations candidates à partir du LLM enseignant offre des garanties théoriques supérieures par rapport à l'utilisation directe d'annotations uniques. Des expériences approfondies sur six tâches de classification de texte valident l'efficacité de notre méthode proposée. Le code source est disponible à l'adresse https://github.com/MingxuanXia/CanDist.
Les modèles de feedback humain pour l'alignement des IA, tels que ceux qui sous-tendent l'Optimisation Directe des Préférences (Direct Preference Optimization, DPO), intègrent souvent un ensemble unique et statique de préférences, limitant ainsi l'adaptabilité. Cet article remet en question l'hypothèse de préférences monolithiques en introduisant le Réglage Configurable des Préférences (Configurable Preference Tuning, CPT), un cadre novateur permettant d'équiper les modèles de langage de la capacité d'ajuster dynamiquement leur comportement en fonction de directives explicites et interprétables par l'humain. CPT exploite des données de préférences générées de manière synthétique, conditionnées par des prompts système dérivés de grilles structurées et granulaires définissant des attributs souhaités, comme le style d'écriture. En affinant le modèle avec ces préférences guidées par des grilles, le LLM apprend à moduler ses sorties au moment de l'inférence en réponse au prompt système, sans nécessiter de réentraînement. Cette approche offre non seulement un contrôle granulaire, mais fournit également un mécanisme pour modéliser des feedbacks humains plus nuancés et dépendants du contexte. Plusieurs artefacts expérimentaux, tels que le code d'entraînement, les jeux de données générés et les modèles affinés, sont disponibles à l'adresse suivante : https://github.com/vicgalle/configurable-preference-tuning.