Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le pré-entraînement des modèles de langage implique un apprentissage sur des corpus étendus, où la qualité des données joue un rôle crucial. Dans ce travail, nous cherchons à estimer directement la contribution des données pendant le pré-entraînement et à sélectionner ces données de manière efficace. Plus précisément, nous nous inspirons de récents résultats montrant que l'efficacité de compression (c'est-à-dire la perte normalisée) de divers modèles sur certains textes est fortement corrélée à leurs performances en aval, lorsque le domaine du texte correspond au benchmark cible (Huang et al., 2024). Sur la base de cette observation, nous émettons l'hypothèse que les données pour lesquelles les pertes du modèle sont prédictives des capacités en aval contribuent également de manière efficace à l'apprentissage. Pour exploiter cette idée, nous introduisons une sélection de données basée sur la force prédictive des données (PreSelect), une méthode légère et efficace de sélection de données qui nécessite uniquement l'entraînement et le déploiement d'un scoreur basé sur fastText. À travers des expériences approfondies avec des modèles de 1 milliard et 3 milliards de paramètres, nous démontrons que les modèles entraînés sur 30 milliards de tokens sélectionnés avec PreSelect surpassent les performances d'un modèle de référence entraîné sur 300 milliards de tokens, réduisant ainsi les besoins en calcul par un facteur de 10. De plus, PreSelect surpasse significativement d'autres méthodes concurrentes de sélection de données, telles que DCLM et FineWeb-Edu, à l'échelle de modèles de 3 milliards de paramètres entraînés sur 100 milliards de tokens. Nous mettons à disposition en open source notre scoreur de sélection de données entraîné ainsi que les ensembles de données curés à l'adresse suivante : https://github.com/hkust-nlp/PreSelect.
Les modèles de langage de grande taille (LLM) ont démontré des performances remarquables dans la résolution de tâches de raisonnement complexes grâce à des mécanismes comme l'incitation en chaîne de pensée (Chain-of-Thought, CoT), qui met l'accent sur un raisonnement détaillé et étape par étape. Cependant, les humains utilisent généralement une stratégie plus efficace : l'élaboration de pensées intermédiaires concises qui ne capturent que les informations essentielles. Dans ce travail, nous proposons la Chaîne de Brouillon (Chain of Draft, CoD), un nouveau paradigme inspiré des processus cognitifs humains, où les LLM génèrent des sorties de raisonnement intermédiaires minimalistes mais informatives lors de la résolution de tâches. En réduisant la verbosité et en se concentrant sur les insights critiques, CoD atteint ou dépasse la précision de CoT tout en utilisant seulement 7,6 % des tokens, réduisant ainsi significativement les coûts et la latence pour diverses tâches de raisonnement.
La conception de solutions pour des défis d'ingénierie complexes est cruciale dans les activités de production humaines. Cependant, les recherches précédentes dans le domaine de la génération augmentée par récupération (RAG) n'ont pas suffisamment abordé les tâches liées à la conception de solutions d'ingénierie complexes. Pour combler cette lacune, nous introduisons un nouveau benchmark, SolutionBench, afin d'évaluer la capacité d'un système à générer des solutions complètes et réalisables pour des problèmes d'ingénierie avec de multiples contraintes complexes. Pour faire progresser davantage la conception de solutions d'ingénierie complexes, nous proposons un nouveau système, SolutionRAG, qui exploite l'exploration arborescente et le mécanisme de pensée bipoint pour générer des solutions fiables. Les résultats expérimentaux approfondis démontrent que SolutionRAG atteint des performances de pointe (SOTA) sur SolutionBench, mettant en évidence son potentiel pour améliorer l'automatisation et la fiabilité de la conception de solutions d'ingénierie complexes dans des applications réelles.
Nous abordons le problème de la génération de code à partir de retours d'exécution multi-tours. Les méthodes existantes génèrent soit du code sans retour, soit utilisent un apprentissage par renforcement hiérarchique complexe pour optimiser les récompenses multi-tours. Nous proposons une approche simple mais évolutive, muCode, qui résout la génération de code multi-tours en utilisant uniquement des récompenses à une étape. Notre idée clé est que la génération de code est un MDP récupérable en une étape, où le code correct peut être récupéré à partir de n'importe quel état de code intermédiaire en un seul tour. muCode entraîne itérativement à la fois un générateur pour fournir des solutions de code conditionnées par des retours d'exécution multi-tours et un vérificateur pour évaluer le nouveau code généré. Les évaluations expérimentales montrent que notre approche obtient des améliorations significatives par rapport aux méthodes de référence actuelles. Nous fournissons une analyse des choix de conception des modèles de récompense et de la politique, et montrons l'efficacité de muCode à exploiter les retours d'exécution. Notre code est disponible à l'adresse https://github.com/portal-cornell/muCode.
Les modèles récents de génération texte-image (T2I) ont obtenu des résultats remarquables en s'entraînant sur des jeux de données à l'échelle du milliard, suivant un paradigme "plus grand est meilleur" qui privilégie la quantité de données plutôt que leur qualité. Nous remettons en question ce paradigme établi en démontrant qu'une augmentation stratégique des données sur de petits ensembles soigneusement sélectionnés peut égaler ou surpasser les modèles entraînés sur des collections massives extraites du web. En utilisant uniquement ImageNet enrichi par des augmentations de texte et d'image bien conçues, nous obtenons un score global supérieur de +2 par rapport à SD-XL sur GenEval et de +5 sur DPGBench, tout en utilisant seulement 1/10e des paramètres et 1/1000e des images d'entraînement. Nos résultats suggèrent qu'une augmentation stratégique des données, plutôt que des ensembles de données massifs, pourrait offrir une voie plus durable pour la génération T2I.
Les modèles de langage de grande taille (LLMs) ont atteint un niveau de compétence comparable à celui des humains pour une variété de tâches, mais leur capacité à résoudre des problèmes mathématiques rigoureux reste un défi ouvert. Dans ce travail, nous étudions un problème fondamental mais computationnellement insoluble : déterminer si un polynôme multivarié donné est non négatif. Ce problème, étroitement lié au dix-septième problème de Hilbert, joue un rôle crucial dans l'optimisation globale des polynômes et trouve des applications dans divers domaines. Tout d'abord, nous présentons SoS-1K, un ensemble de données soigneusement constitué d'environ 1 000 polynômes, accompagné d'instructions de raisonnement conçues par des experts et basées sur cinq critères progressivement plus difficiles. En évaluant plusieurs LLMs de pointe, nous constatons que, sans guidance structurée, tous les modèles ne performent que légèrement au-dessus du seuil de hasard de 50 %. Cependant, des instructions de raisonnement de haute qualité améliorent significativement la précision, augmentant les performances jusqu'à 81 %. De plus, notre modèle de 7B, SoS-7B, affiné sur SoS-1K pendant seulement 4 heures, surpasse en précision le DeepSeek-V3 de 671B et le GPT-4o-mini, tout en ne nécessitant respectivement que 1,8 % et 5 % du temps de calcul requis pour les lettres. Nos résultats mettent en lumière le potentiel des LLMs pour repousser les limites du raisonnement mathématique et s'attaquer à des problèmes NP-difficiles.
Comprendre les informations à partir de documents visuellement riches reste un défi majeur pour les méthodes traditionnelles de Génération Augmentée par Récupération (RAG). Les benchmarks existants se concentrent principalement sur le question-réponse (QA) basé sur des images, négligeant les défis fondamentaux de la récupération efficace, de la compréhension et du raisonnement au sein de documents visuels denses. Pour combler cette lacune, nous introduisons ViDoSeek, un nouveau jeu de données conçu pour évaluer les performances des RAG sur des documents visuellement riches nécessitant un raisonnement complexe. Sur cette base, nous identifions les principales limites des approches RAG actuelles : (i) les méthodes de récupération purement visuelles peinent à intégrer efficacement les caractéristiques textuelles et visuelles, et (ii) les approches précédentes allouent souvent un nombre insuffisant de tokens de raisonnement, limitant ainsi leur efficacité. Pour relever ces défis, nous proposons ViDoRAG, un nouveau cadre RAG multi-agents conçu pour le raisonnement complexe sur des documents visuels. ViDoRAG utilise une stratégie hybride basée sur un modèle de mélange gaussien (GMM) pour gérer efficacement la récupération multi-modale. Pour approfondir les capacités de raisonnement du modèle, nous introduisons un workflow itératif d'agents intégrant l'exploration, la synthèse et la réflexion, offrant ainsi un cadre pour étudier la mise à l'échelle en temps de test dans les domaines RAG. Des expériences approfondies sur ViDoSeek valident l'efficacité et la généralisation de notre approche. Notamment, ViDoRAG surpasse les méthodes existantes de plus de 10 % sur le benchmark compétitif ViDoSeek.
L'apprentissage par renforcement a produit des résultats prometteurs en atteignant des capacités de niveau humain, voire supérieur, dans divers domaines de problèmes, mais les succès en matière de manipulation robotique dextre restent limités. Ce travail explore les principaux défis liés à l'application de l'apprentissage par renforcement pour résoudre un ensemble de tâches de manipulation riches en contacts sur un corps humanoïde. Nous introduisons de nouvelles techniques pour surmonter ces défis, validées empiriquement. Nos principales contributions incluent un module de réglage automatique réel-vers-sim qui rapproche l'environnement simulé du monde réel, un schéma de conception de récompenses généralisé qui simplifie l'ingénierie des récompenses pour les tâches de manipulation à long terme et riches en contacts, un processus de distillation diviser-pour-régner qui améliore l'efficacité des échantillons pour les problèmes d'exploration difficiles tout en maintenant les performances sim-vers-réel, et un mélange de représentations d'objets éparses et denses pour combler l'écart de perception sim-vers-réel. Nous montrons des résultats prometteurs sur trois tâches de manipulation dextre humanoïde, avec des études d'ablation pour chaque technique. Notre travail présente une approche réussie pour l'apprentissage de la manipulation dextre humanoïde en utilisant l'apprentissage par renforcement sim-vers-réel, atteignant une généralisation robuste et des performances élevées sans nécessiter de démonstration humaine.
Les modèles modernes de reconnaissance automatique de la parole (ASR), tels que Whisper d'OpenAI, reposent sur des architectures profondes de type encodeur-décodeur, où les encodeurs constituent un goulot d'étranglement critique pour un déploiement efficace en raison de leur intensité computationnelle élevée. Nous présentons LiteASR, un schéma de compression à faible rang pour les encodeurs ASR qui réduit significativement les coûts d'inférence tout en maintenant la précision de la transcription. Notre approche exploite les fortes propriétés de faible rang observées dans les activations intermédiaires : en appliquant l'analyse en composantes principales (ACP) avec un petit jeu de données de calibration, nous approximons les transformations linéaires par une chaîne de multiplications matricielles de faible rang, et optimisons en outre l'auto-attention pour fonctionner dans la dimension réduite. Les résultats d'évaluation montrent que notre méthode peut compresser la taille de l'encodeur de Whisper large-v3 de plus de 50%, atteignant la taille de Whisper medium avec une meilleure précision de transcription, établissant ainsi une nouvelle frontière Pareto-optimale entre efficacité et performance. Le code de LiteASR est disponible à l'adresse https://github.com/efeslab/LiteASR.
La génération augmentée par récupération (RAG) étend les capacités des grands modèles de langage (LLM) en intégrant des sources de données externes pour améliorer l'exactitude factuelle et la couverture de domaines spécifiques. Les pipelines RAG modernes s'appuient sur de vastes bases de données, ce qui pose des défis systémiques dans les déploiements sensibles à la latence, en particulier lorsque la mémoire GPU disponible est limitée. Pour relever ces défis, nous proposons TeleRAG, un système d'inférence efficace qui réduit la latence de RAG tout en minimisant les besoins en mémoire GPU. L'innovation clé de TeleRAG est la récupération anticipée, un mécanisme de préchargement qui anticipe les données nécessaires et les transfère du CPU vers le GPU en parallèle avec la génération du LLM. En tirant parti de la modularité des pipelines RAG, de l'algorithme de recherche par fichier inversé (IVF) et des similarités entre les requêtes, TeleRAG optimise le chevauchement entre le mouvement des données et le calcul. Les résultats expérimentaux montrent que TeleRAG réduit la latence d'inférence RAG de bout en bout jusqu'à 1,72x en moyenne par rapport aux systèmes de pointe, permettant des déploiements plus rapides et plus efficaces en mémoire pour les applications RAG avancées.
Les modèles de fondation visuels (VFMs) ont gagné en popularité grâce à leurs performances de pointe. Cependant, l'interprétabilité reste cruciale pour les applications critiques. Dans ce contexte, les modèles auto-explicables (SEM) visent à fournir des classificateurs interprétables qui décomposent les prédictions en une somme pondérée de concepts interprétables. Malgré leur potentiel, des études récentes ont montré que ces explications manquent souvent de fidélité. Dans ce travail, nous combinons les VFMs avec une architecture prototypique innovante et des objectifs d'entraînement spécialisés. En entraînant uniquement une tête légère (environ 1 million de paramètres) sur des VFMs figés, notre approche (ProtoFM) offre une solution efficace et interprétable. Les évaluations démontrent que notre approche atteint des performances de classification compétitives tout en surpassant les modèles existants sur une gamme de métriques d'interprétabilité issues de la littérature. Le code est disponible à l'adresse https://github.com/hturbe/proto-fm.
Les systèmes de Génération Augmentée par Récupération (RAG) restent vulnérables aux réponses hallucinées malgré l'intégration de sources de connaissances externes. Nous présentons LettuceDetect, un cadre qui aborde deux limitations critiques des méthodes existantes de détection d'hallucinations : (1) les contraintes de la fenêtre contextuelle des méthodes traditionnelles basées sur des encodeurs, et (2) l'inefficacité computationnelle des approches basées sur des modèles de langage de grande taille (LLM). S'appuyant sur les capacités de contexte étendu de ModernBERT (jusqu'à 8 000 tokens) et entraîné sur le jeu de données de référence RAGTruth, notre approche surpasse tous les modèles basés sur des encodeurs précédents et la plupart des modèles basés sur des prompts, tout en étant environ 30 fois plus petit que les meilleurs modèles. LettuceDetect est un modèle de classification de tokens qui traite des triplets contexte-question-réponse, permettant l'identification de déclarations non étayées au niveau des tokens. Les évaluations sur le corpus RAGTruth démontrent un score F1 de 79,22 % pour la détection au niveau des exemples, ce qui représente une amélioration de 14,8 % par rapport à Luna, l'architecture basée sur des encodeurs précédemment considérée comme l'état de l'art. De plus, le système peut traiter 30 à 60 exemples par seconde sur un seul GPU, le rendant plus pratique pour les applications RAG en conditions réelles.
La complexité croissante et le nombre de paramètres des réseaux de neurones convolutifs (CNN) et des Transformers posent des défis en termes d'efficacité computationnelle et de demandes en ressources. L'élagage a été identifié comme une stratégie efficace pour relever ces défis en supprimant des éléments redondants tels que des neurones, des canaux ou des connexions, améliorant ainsi l'efficacité computationnelle sans compromettre significativement les performances. Ce document s'appuie sur les travaux fondateurs de l'Optimal Brain Damage (OBD) en faisant progresser la méthodologie d'estimation de l'importance des paramètres à l'aide de la matrice hessienne. Contrairement aux approches précédentes qui reposent sur des approximations, nous introduisons l'Optimal Brain Apoptosis (OBA), une nouvelle méthode d'élagage qui calcule directement la valeur du produit hessien-vecteur pour chaque paramètre. En décomposant la matrice hessienne à travers les couches du réseau et en identifiant les conditions sous lesquelles les sous-matrices hessiennes inter-couches sont non nulles, nous proposons une technique hautement efficace pour calculer le développement de Taylor du second ordre des paramètres. Cette approche permet un processus d'élagage plus précis, en particulier dans le contexte des CNN et des Transformers, comme validé dans nos expériences incluant VGG19, ResNet32, ResNet50 et ViT-B/16 sur les ensembles de données CIFAR10, CIFAR100 et Imagenet. Notre code est disponible à l'adresse https://github.com/NEU-REAL/OBA.
La préhension habile demeure un problème fondamental mais complexe en robotique. Un robot polyvalent doit être capable de saisir des objets variés dans des scénarios arbitraires. Cependant, les recherches existantes reposent généralement sur des hypothèses spécifiques, telles que des configurations à un seul objet ou des environnements limités, ce qui entraîne une généralisation restreinte. Notre solution est DexGraspVLA, un cadre hiérarchique qui utilise un modèle Vision-Langage pré-entraîné comme planificateur de tâches de haut niveau et apprend une politique basée sur la diffusion comme contrôleur d'actions de bas niveau. L'idée clé réside dans la transformation itérative d'entrées visuelles et langagières variées en représentations invariantes au domaine, où l'apprentissage par imitation peut être efficacement appliqué grâce à l'atténuation du décalage de domaine. Ainsi, cela permet une généralisation robuste dans un large éventail de scénarios réels. Notamment, notre méthode atteint un taux de réussite supérieur à 90 % pour des milliers de combinaisons inédites d'objets, d'éclairages et d'arrière-plans dans un environnement « zero-shot ». Une analyse empirique confirme en outre la cohérence du comportement interne du modèle face aux variations environnementales, validant ainsi notre conception et expliquant ses performances de généralisation. Nous espérons que notre travail constitue une avancée vers la réalisation d'une préhension habile généralisée. Notre démonstration et notre code sont disponibles à l'adresse https://dexgraspvla.github.io/.
L'application des grands modèles de langage (LLMs) pour assister en psychothérapie est une approche émergente et significative, motivée par l'écart important entre les besoins des patients et la disponibilité du soutien en santé mentale. Cependant, les LLMs actuels peinent à fournir de manière constante des réponses efficaces aux discours des clients, principalement en raison du manque de supervision par des données réelles de haute qualité issues de séances de psychothérapie, dont le contenu est généralement inaccessible en raison des préoccupations liées à la confidentialité des clients. De plus, la qualité des réponses des thérapeutes dans les séances disponibles peut varier considérablement en fonction de leur formation professionnelle et de leur expérience. Évaluer la qualité des réponses des thérapeutes reste un défi ouvert. Dans ce travail, nous abordons ces défis en proposant d'abord un ensemble de principes professionnels et complets pour évaluer les réponses des thérapeutes aux discours des clients. En utilisant ces principes, nous créons un ensemble de données de préférences, PsychoCounsel-Preference, qui contient 36 000 paires de comparaison de préférences de haute qualité. Cet ensemble de données est aligné sur les préférences des psychothérapeutes professionnels, offrant une base solide pour évaluer et améliorer les LLMs en psychothérapie. Les expériences sur la modélisation de récompense et l'apprentissage par préférence démontrent que PsychoCounsel-Preference est une excellente ressource pour que les LLMs acquièrent les compétences essentielles pour répondre aux clients lors d'une séance de conseil. Notre modèle le mieux aligné, PsychoCounsel-Llama3-8B, atteint un taux de victoire impressionnant de 87 % contre GPT-4o. Nous publions PsychoCounsel-Preference, PsychoCounsel-Llama3-8B et le modèle de récompense PsychoCounsel Llama3-8B-Reward pour faciliter la recherche en psychothérapie avec les LLMs à l'adresse suivante : https://hf.co/Psychotherapy-LLM.
L'activité humaine est régulée par des normes. Lorsqu'ils effectuent des actions dans le monde réel, les humains non seulement suivent ces normes, mais évaluent également les compromis entre différentes normes. Cependant, les machines sont souvent entraînées sans supervision explicite sur la compréhension et le raisonnement normatif, en particulier lorsque ces normes sont ancrées dans un contexte physique et social. Pour améliorer et évaluer la capacité de raisonnement normatif des modèles vision-langage (VLMs), nous présentons EgoNormia |epsilon|, un ensemble de 1 853 vidéos égocentriques d'interactions humaines, chacune accompagnée de deux questions évaluant à la fois la prédiction et la justification des actions normatives. Ces actions normatives couvrent sept catégories : sécurité, confidentialité, proxémique, politesse, coopération, coordination/proactivité, et communication/lisibilité. Pour compiler ce jeu de données à grande échelle, nous proposons une nouvelle pipeline exploitant l'échantillonnage vidéo, la génération automatique de réponses, le filtrage et la validation humaine. Notre travail montre que les modèles vision-langage actuels manquent d'une compréhension robuste des normes, atteignant un score maximal de 45 % sur EgoNormia (contre 92 % pour un benchmark humain). Notre analyse des performances dans chaque dimension met en lumière les risques significatifs en matière de sécurité, de confidentialité, ainsi que le manque de capacités de collaboration et de communication lorsqu'ils sont appliqués à des agents dans le monde réel. Nous montrons également qu'à travers une méthode de génération basée sur la recherche d'information, il est possible d'utiliser EgoNormia pour améliorer le raisonnement normatif des VLMs.
Malgré des progrès significatifs dans la génération d'images basée sur la diffusion, la génération pilotée par un sujet et l'édition basée sur des instructions restent des défis majeurs. Les méthodes existantes les traitent généralement séparément, peinant avec des données de haute qualité limitées et une mauvaise généralisation. Cependant, ces deux tâches nécessitent de capturer des variations visuelles complexes tout en maintenant une cohérence entre les entrées et les sorties. Par conséquent, nous proposons MIGE, un cadre unifié qui standardise les représentations des tâches en utilisant des instructions multimodales. Il traite la génération pilotée par un sujet comme une création sur une toile vierge et l'édition basée sur des instructions comme une modification d'une image existante, établissant ainsi une formulation commune entrée-sortie. MIGE introduit un nouvel encodeur multimodal qui mappe des instructions multimodales libres dans un espace unifié vision-langage, intégrant des caractéristiques visuelles et sémantiques grâce à un mécanisme de fusion de caractéristiques. Cette unification permet un entraînement conjoint des deux tâches, offrant deux avantages clés : (1) Amélioration inter-tâches : En exploitant des représentations visuelles et sémantiques partagées, l'entraînement conjoint améliore l'adhésion aux instructions et la cohérence visuelle dans la génération pilotée par un sujet et l'édition basée sur des instructions. (2) Généralisation : L'apprentissage dans un format unifié facilite le transfert de connaissances inter-tâches, permettant à MIGE de généraliser à de nouvelles tâches compositionnelles, y compris l'édition pilotée par un sujet basée sur des instructions. Les expériences montrent que MIGE excelle à la fois dans la génération pilotée par un sujet et l'édition basée sur des instructions, tout en établissant un état de l'art dans la nouvelle tâche d'édition pilotée par un sujet basée sur des instructions. Le code et le modèle sont disponibles publiquement à l'adresse https://github.com/Eureka-Maggie/MIGE.
Les récents modèles de langage multi-modaux de grande taille (MLLMs) ont réalisé des progrès significatifs dans la compréhension vidéo. Cependant, leurs performances sur les vidéos impliquant des actions humaines restent limitées par le manque de données de haute qualité. Pour remédier à cela, nous introduisons un pipeline d'annotation de données en deux étapes. Premièrement, nous concevons des stratégies pour accumuler des vidéos présentant des actions humaines claires à partir d'Internet. Deuxièmement, les vidéos sont annotées dans un format de légende standardisé qui utilise les attributs humains pour distinguer les individus et décrit chronologiquement leurs actions et interactions. Grâce à ce pipeline, nous avons constitué deux ensembles de données, nommés HAICTrain et HAICBench. HAICTrain comprend 126 000 paires vidéo-légende générées par Gemini-Pro et vérifiées à des fins d'entraînement. Par ailleurs, HAICBench inclut 500 paires vidéo-légende annotées manuellement et 1 400 paires questions-réponses, pour une évaluation complète de la compréhension des actions humaines. Les résultats expérimentaux montrent que l'entraînement avec HAICTrain améliore non seulement de manière significative les capacités de compréhension humaine sur 4 benchmarks, mais peut également améliorer les résultats de génération texte-vidéo. Les ensembles de données HAICTrain et HAICBench sont disponibles à l'adresse suivante : https://huggingface.co/datasets/KuaishouHAIC/HAIC.