Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'optimisation au moment de l'inférence ajuste le calcul pour dériver des étapes de raisonnement délibérées en vue d'une performance efficace. Bien que les stratégies précédentes basées sur la recherche abordent le manque de prévoyance de la génération auto-régressive, l'immense espace de recherche conduit à une exploration excessive et à une exploitation insuffisante. Pour trouver un équilibre efficace afin de dériver l'étape optimale, nous formulons la stratégie de décodage comme un échantillonnage prospectif, exploitant des étapes futures simulées pour obtenir une estimation globalement optimale de l'étape. Sur cette base, nous proposons une nouvelle stratégie de décodage, nommée phi-Decoding. Pour fournir une estimation précise et expressive de la valeur de l'étape, phi-Decoding approxime deux distributions via la prospective et le clustering. En échantillonnant à partir de la distribution conjointe, les étapes optimales peuvent être sélectionnées pour l'exploitation. Pour soutenir l'allocation adaptative du calcul, nous proposons des stratégies d'élagage en largeur et en profondeur, offrant une solution légère pour atteindre l'efficacité de l'inférence. Des expériences approfondies sur sept benchmarks montrent que phi-Decoding surpasse les bases de référence solides à la fois en performance et en efficacité. Une analyse supplémentaire démontre sa généralisation à travers divers LLM et son évolutivité sur une large gamme de budgets de calcul. Le code sera publié à l'adresse https://github.com/xufangzhi/phi-Decoding, et le package PyPI open-source sera bientôt disponible.
Malgré le récent succès des modèles de contraste image-texte comme CLIP et SigLIP, ces modèles rencontrent souvent des difficultés avec des tâches centrées sur la vision qui nécessitent une compréhension d'image de haute fidélité, telles que le comptage, l'estimation de la profondeur et la reconnaissance fine d'objets. Ces modèles, en alignant le langage, ont tendance à privilégier la sémantique de haut niveau plutôt que la compréhension visuelle, affaiblissant ainsi leur compréhension des images. D'un autre côté, les modèles axés sur la vision excellent dans le traitement des informations visuelles mais peinent à comprendre le langage, limitant leur flexibilité pour les tâches pilotées par le langage. Dans ce travail, nous présentons TULIP, un remplacement open-source et prêt à l'emploi pour les modèles existants de type CLIP. Notre méthode exploite l'augmentation générative de données, un apprentissage par contraste image-image et texte-texte amélioré, ainsi qu'une régularisation par reconstruction d'image/texte pour apprendre des caractéristiques visuelles fines tout en préservant l'alignement sémantique global. Notre approche, qui s'étend à plus de 1 milliard de paramètres, surpasse les modèles de pointe (SOTA) existants sur plusieurs benchmarks, établissant une nouvelle performance SOTA en zero-shot sur ImageNet-1K, offrant jusqu'à 2 fois d'amélioration par rapport à SigLIP sur RxRx1 en sondage linéaire pour la classification few-shot, et améliorant les modèles vision-langage, atteignant des scores plus de 3 fois supérieurs à ceux de SigLIP sur MMVP. Notre code et nos checkpoints sont disponibles à l'adresse https://tulip-berkeley.github.io.
Les maillages triangulaires jouent un rôle crucial dans les applications 3D pour une manipulation et un rendu efficaces. Bien que les méthodes auto-régressives génèrent des maillages structurés en prédisant des tokens de sommets discrets, elles sont souvent limitées par un nombre de faces restreint et une incomplétude des maillages. Pour relever ces défis, nous proposons DeepMesh, un cadre qui optimise la génération de maillages grâce à deux innovations clés : (1) une stratégie de pré-entraînement efficace intégrant un nouvel algorithme de tokenisation, ainsi que des améliorations dans la curation et le traitement des données, et (2) l'introduction de l'apprentissage par renforcement (RL) dans la génération de maillages 3D pour aligner les préférences humaines via l'Optimisation Directe des Préférences (DPO). Nous concevons un standard de notation qui combine l'évaluation humaine avec des métriques 3D pour collecter des paires de préférences pour la DPO, garantissant à la fois un attrait visuel et une précision géométrique. Conditionné sur des nuages de points et des images, DeepMesh génère des maillages avec des détails complexes et une topologie précise, surpassant les méthodes de pointe en termes de précision et de qualité. Page du projet : https://zhaorw02.github.io/DeepMesh/
Les modèles de fondation entraînés sur de vastes quantités de données ont démontré des capacités remarquables de raisonnement et de génération dans les domaines du texte, des images, de l'audio et de la vidéo. Notre objectif chez Roblox est de construire un tel modèle de fondation pour l'intelligence 3D, un modèle capable de soutenir les développeurs dans la production de tous les aspects d'une expérience Roblox, de la génération d'objets et de scènes 3D au rigging de personnages pour l'animation, en passant par la production de scripts programmatiques décrivant les comportements des objets. Nous discutons de trois exigences clés de conception pour un tel modèle de fondation 3D, puis présentons notre première étape vers la construction d'un tel modèle. Nous prévoyons que les formes géométriques 3D seront un type de données central et décrivons notre solution pour un tokenizer de formes 3D. Nous montrons comment notre schéma de tokenisation peut être utilisé dans des applications pour la génération de texte à forme, de forme à texte et de texte à scène. Nous démontrons comment ces applications peuvent collaborer avec les grands modèles de langage (LLM) existants pour effectuer des analyses et des raisonnements de scène. Nous concluons par une discussion décrivant notre cheminement vers la construction d'un modèle de fondation entièrement unifié pour l'intelligence 3D.
La construction de graphes de connaissances généralisés (Generalized Knowledge Graph, GKG), incluant les graphes de connaissances, les graphes de connaissances événementiels et les graphes de connaissances de sens commun, est fondamentale pour diverses tâches de traitement du langage naturel. Les études actuelles construisent généralement ces types de graphes séparément, négligeant ainsi des perspectives holistiques et une unification potentielle qui pourraient être bénéfiques en termes de ressources de calcul et d'utilisation. Cependant, un défi majeur dans le développement d'un cadre unifié pour les GKG réside dans les obstacles découlant des différences spécifiques aux tâches. Dans cette étude, nous proposons un cadre unifié pour la construction de graphes de connaissances généralisés afin de relever ce défi. Tout d'abord, nous collectons des données provenant de 15 sous-tâches dans 29 jeux de données couvrant les trois types de graphes, en les catégorisant en données intra-échantillon, contre-tâche et hors distribution (Out-of-Distribution, OOD). Ensuite, nous proposons un cadre d'apprentissage par curriculum en trois étapes pour l'affinement des modèles de langage de grande taille (Large Language Models), en injectant itérativement des connaissances provenant des trois types de graphes. Des expériences approfondies montrent que notre modèle proposé améliore la construction des trois types de graphes pour les données intra-domaine, OOD et contre-tâche.
La qualité temporelle est un aspect crucial de la génération vidéo, car elle garantit une cohérence de mouvement et des dynamiques réalistes entre les images. Cependant, atteindre une forte cohérence et diversité temporelles reste un défi. Dans ce travail, nous explorons pour la première fois l'augmentation temporelle dans la génération vidéo et introduisons FluxFlow pour une investigation initiale, une stratégie conçue pour améliorer la qualité temporelle. Opérant au niveau des données, FluxFlow applique des perturbations temporelles contrôlées sans nécessiter de modifications architecturales. Des expériences approfondies sur les benchmarks UCF-101 et VBench démontrent que FluxFlow améliore significativement la cohérence et la diversité temporelles dans divers modèles de génération vidéo, incluant U-Net, DiT et les architectures basées sur AR, tout en préservant la fidélité spatiale. Ces résultats mettent en lumière le potentiel de l'augmentation temporelle comme une approche simple mais efficace pour faire progresser la qualité de la génération vidéo.
Les avancées rapides des technologies génératives se révèlent être une arme à double tranchant. Bien qu'elles offrent des outils puissants qui améliorent la commodité, elles soulèvent également des préoccupations sociales importantes. En tant que défenseurs, les méthodes actuelles de détection d'images synthétiques manquent souvent d'interprétabilité textuelle au niveau des artefacts et se concentrent excessivement sur la détection de manipulations d'images, tandis que les jeux de données actuels souffrent généralement de générateurs obsolètes et d'un manque d'annotations fines. Dans cet article, nous présentons SynthScars, un jeu de données de haute qualité et diversifié composé de 12 236 images entièrement synthétiques annotées par des experts humains. Il comprend 4 types de contenus d'images distincts, 3 catégories d'artefacts et des annotations fines couvrant la segmentation au niveau des pixels, des explications textuelles détaillées et des étiquettes de catégories d'artefacts. De plus, nous proposons LEGION (LEarning to Ground and explain for Synthetic Image detectiON), un cadre d'analyse de falsification d'images basé sur un modèle de langage multimodal (MLLM) qui intègre la détection, la segmentation et l'explication des artefacts. En nous appuyant sur cette capacité, nous explorons également LEGION en tant que contrôleur, l'intégrant dans des pipelines de raffinement d'images pour guider la génération d'images de meilleure qualité et plus réalistes. Des expériences approfondies montrent que LEGION surpasse les méthodes existantes sur plusieurs benchmarks, dépassant notamment le deuxième meilleur expert traditionnel sur SynthScars de 3,31 % en mIoU et de 7,75 % en score F1. De plus, les images raffinées générées sous sa direction présentent un alignement plus fort avec les préférences humaines. Le code, le modèle et le jeu de données seront publiés.
Les grands modèles de langage (LLMs) ont démontré des capacités prometteuses dans la résolution de tâches de raisonnement mathématique, en s'appuyant sur les données de chaîne de pensée (Chain-of-Thought, CoT) comme composant essentiel pour guider la génération de réponses. Les paradigmes actuels génèrent généralement directement la CoT et les réponses pour un problème donné, s'écartant dans une certaine mesure des stratégies de résolution de problèmes humaines. Les humains résolvent souvent des problèmes en rappelant des cas analogues et en exploitant leurs solutions pour raisonner sur la tâche actuelle. Inspirés par ce processus cognitif, nous proposons MetaLadder, un cadre novateur qui incite explicitement les LLMs à rappeler et à réfléchir sur des méta-problèmes, c'est-à-dire des problèmes structurellement ou sémantiquement analogues, ainsi que sur leurs solutions CoT, avant de s'attaquer au problème cible. De plus, nous introduisons un mécanisme de reformulation des problèmes pour améliorer la compréhension du modèle du problème cible en régénérant la question originale, ce qui améliore encore la précision du raisonnement. Ainsi, le modèle peut réaliser un transfert de raisonnement à partir de problèmes analogiques, imitant les capacités humaines d'"apprentissage par l'exemple" et de généralisation. Des expériences approfondies sur des benchmarks mathématiques démontrent que notre MetaLadder améliore significativement la précision de résolution de problèmes des LLMs, surpassant largement les méthodes standard basées sur la CoT (gain de précision de 10,3%) et d'autres méthodes. Notre code et nos données ont été publiés à l'adresse https://github.com/LHL3341/MetaLadder.
Le raisonnement visuel est au cœur de la cognition humaine, permettant aux individus d'interpréter et de comprendre de manière abstraite leur environnement. Bien que les modèles de langage multimodaux de grande envergure (MLLMs) récents aient démontré des performances impressionnantes dans les tâches linguistiques et visuo-linguistiques, les benchmarks existants mesurent principalement des compétences basées sur la reconnaissance et évaluent insuffisamment les véritables capacités de raisonnement visuel. Pour combler cette lacune critique, nous introduisons VERIFY, un benchmark explicitement conçu pour isoler et évaluer rigoureusement les capacités de raisonnement visuel des MLLMs de pointe. VERIFY oblige les modèles à raisonner principalement à partir d'informations visuelles, en fournissant un contexte textuel minimal pour réduire la dépendance à l'égard des connaissances spécifiques au domaine et des biais linguistiques. Chaque problème est accompagné d'un chemin de raisonnement annoté par des humains, ce qui en fait le premier à fournir une évaluation approfondie des processus de prise de décision des modèles. De plus, nous proposons de nouvelles métriques qui évaluent la fidélité du raisonnement visuel au-delà de la simple précision, mettant en évidence des déséquilibres critiques dans les modèles de raisonnement actuels. Notre benchmarking complet des MLLMs leaders révèle des limitations significatives, soulignant la nécessité d'une approche équilibrée et holistique à la fois de la perception et du raisonnement. Pour plus de teasers et de tests, visitez notre page de projet (https://verify-eqh.pages.dev/).
Les modèles de diffusion ont démontré des performances remarquables en synthèse d'images, mais ils nécessitent des ressources computationnelles et mémoire importantes pour l'entraînement, le réglage fin et l'inférence. Bien que des techniques avancées de quantification aient réussi à minimiser l'utilisation de la mémoire pour l'inférence, l'entraînement et le réglage fin de ces modèles quantifiés nécessitent toujours une mémoire importante, probablement en raison de la déquantification pour un calcul précis des gradients et/ou de la rétropropagation pour les algorithmes basés sur les gradients. Cependant, un réglage fin économe en mémoire est particulièrement souhaitable pour des applications telles que la personnalisation, qui doivent souvent être exécutées sur des appareils périphériques comme les téléphones portables avec des données privées. Dans ce travail, nous relevons ce défi en quantifiant un modèle de diffusion avec personnalisation via Textual Inversion et en exploitant une optimisation d'ordre zéro sur les tokens de personnalisation sans déquantification, de sorte qu'elle ne nécessite pas de stockage des gradients et des activations pour la rétropropagation, qui consomme une mémoire considérable. Comme une estimation de gradient utilisant l'optimisation d'ordre zéro est assez bruyante pour une seule ou quelques images dans la personnalisation, nous proposons de débruiter le gradient estimé en le projetant sur un sous-espace construit avec l'historique passé des tokens, appelé Subspace Gradient. De plus, nous avons étudié l'influence de l'incorporation de texte dans la génération d'images, conduisant à notre méthode d'échantillonnage des pas de temps, appelée Partial Uniform Timestep Sampling, pour l'échantillonnage avec des pas de temps de diffusion efficaces. Notre méthode atteint des performances comparables aux méthodes précédentes en termes de scores d'alignement image et texte pour la personnalisation de Stable Diffusion avec uniquement des passes avant, tout en réduisant la demande de mémoire d'entraînement jusqu'à 8,2 fois.
Les recherches actuelles sur le paradigme Decompose-Then-Verify pour évaluer la factualité des textes longs traitent généralement la décomposition et la vérification de manière isolée, négligeant leurs interactions et les éventuels désalignements. Nous constatons que les politiques de décomposition existantes, généralement basées sur des démonstrations manuelles, ne s'alignent pas bien avec les vérificateurs en aval en termes d'atomicité -- une nouvelle métrique quantifiant la densité d'information -- ce qui conduit à des résultats de vérification sous-optimaux. Nous formulons la recherche de la politique de décomposition optimale pour une vérification optimale comme un problème d'optimisation bi-niveau. Pour approximer une solution à ce problème fortement NP-difficile, nous proposons la décomposition dynamique, un cadre d'apprentissage par renforcement qui exploite les retours du vérificateur pour apprendre une politique de décomposition dynamique des affirmations vers une atomicité privilégiée par le vérificateur. Les résultats expérimentaux montrent que la décomposition dynamique surpasse les politiques de décomposition existantes, améliorant la confiance de vérification de 0,07 et la précision de 0,12 (sur une échelle de 0 à 1) en moyenne, quel que soit le vérificateur, le jeu de données ou l'atomicité des affirmations en entrée.
Le développement d'agents d'IA capables de manipuler de manière autonome des interfaces graphiques utilisateur constitue une tâche complexe et de longue haleine. Les récentes avancées dans les lois de mise à l'échelle des données nous inspirent à entraîner des agents d'utilisation informatique avec un ensemble d'instructions mis à l'échelle, mais l'utilisation du clonage comportemental pour entraîner ces agents nécessite toujours une quantité considérable de trajectoires de haute qualité. Pour répondre au besoin de scalabilité, nous avons conçu STEVE, un pipeline de vérification étape par étape pour l'entraînement des agents d'utilisation informatique. Tout d'abord, nous établissons un vaste ensemble d'instructions pour ces agents et collectons des données de trajectoires à l'aide de certains agents sous-optimaux. GPT-4o est utilisé pour vérifier la correction de chaque étape dans les trajectoires en se basant sur les écrans avant et après l'exécution de l'action, attribuant ainsi à chaque étape une étiquette binaire. Enfin, nous adoptons l'optimisation de Kahneman et Tversky pour optimiser l'agent à partir des étiquettes binaires étape par étape. Des expériences approfondies montrent que notre agent surpasse l'affinage supervisé en exploitant à la fois les actions positives et négatives au sein d'une trajectoire. De plus, STEVE nous permet d'entraîner un modèle vision-langage de 7 milliards de paramètres en tant qu'agent d'utilisation informatique, atteignant des performances de pointe dans l'environnement de bureau en direct WinAgentArena avec une grande efficacité et à un coût réduit. Code et données : https://github.com/FanbinLu/STEVE.
Les agents de modèles de langage de grande taille (LLM) doivent effectuer des interactions multi-tours dans des tâches du monde réel. Cependant, les algorithmes existants de RL (Apprentissage par Renforcement) multi-tours pour optimiser les agents LLM échouent à effectuer une attribution de crédit efficace sur plusieurs tours tout en exploitant les capacités de généralisation des LLM, et il reste incertain comment développer de tels algorithmes. Pour étudier cela, nous introduisons d'abord un nouveau benchmark, ColBench, où un agent LLM interagit avec un collaborateur humain sur plusieurs tours pour résoudre des tâches réalistes en programmation backend et en conception frontend. En nous appuyant sur ce benchmark, nous proposons un nouvel algorithme de RL, SWEET-RL (RL avec Évaluation Étape par Étape à partir des informations d'entraînement), qui utilise un objectif d'optimisation soigneusement conçu pour entraîner un modèle critique avec accès à des informations supplémentaires pendant l'entraînement. Le critique fournit des récompenses au niveau des étapes pour améliorer le modèle de politique. Nos expériences démontrent que SWEET-RL obtient une amélioration absolue de 6 % en termes de taux de succès et de victoires sur ColBench par rapport à d'autres algorithmes de RL multi-tours de pointe, permettant à Llama-3.1-8B de rivaliser ou de surpasser les performances de GPT4-o dans la création collaborative de contenu réaliste.
Les récents progrès dans le pré-entraînement des LLM ont mis en avant des fenêtres de contexte toujours plus larges pour traiter des séquences plus longues. Cependant, notre étude pilote révèle que les modèles pré-entraînés avec des fenêtres de contexte plus courtes surpassent systématiquement leurs homologues à contexte long pour un budget fixe de tokens. Cette découverte nous motive à explorer une stratégie optimale de planification des fenêtres de contexte pour mieux équilibrer la capacité à gérer des contextes longs avec l'efficacité du pré-entraînement. À cette fin, nous proposons SkyLadder, une approche simple mais efficace qui met en œuvre une transition progressive de fenêtres de contexte courtes à longues. SkyLadder préserve de solides performances sur les benchmarks standards, tout en égalant ou dépassant les résultats de référence sur les tâches à contexte long. À travers des expériences approfondies, nous pré-entraînons des modèles de 1 milliard de paramètres (jusqu'à 32K de contexte) et de 3 milliards de paramètres (8K de contexte) sur 100 milliards de tokens, démontrant que SkyLadder apporte des gains constants allant jusqu'à 3,7 % sur les benchmarks courants, tout en atteignant des vitesses d'entraînement jusqu'à 22 % plus rapides par rapport aux références. Le code est disponible à l'adresse suivante : https://github.com/sail-sg/SkyLadder.
Nous présentons MusicInfuser, une approche pour générer des vidéos de danse de haute qualité synchronisées avec une piste musicale spécifiée. Plutôt que de tenter de concevoir et d'entraîner un nouveau modèle multimodal audio-vidéo, nous montrons comment les modèles de diffusion vidéo existants peuvent être adaptés pour s'aligner sur des entrées musicales en introduisant une attention croisée légère musique-vidéo et un adaptateur à faible rang. Contrairement aux travaux antérieurs nécessitant des données de capture de mouvement, notre approche se limite à un fine-tuning sur des vidéos de danse. MusicInfuser permet une génération de vidéos pilotée par la musique de haute qualité tout en préservant la flexibilité et les capacités génératives des modèles sous-jacents. Nous introduisons un cadre d'évaluation utilisant des Video-LLMs pour évaluer plusieurs dimensions de la qualité de la génération de danse. La page du projet et le code sont disponibles à l'adresse https://susunghong.github.io/MusicInfuser.
La reconstruction décompositionnelle de scènes 3D, avec des formes complètes et des textures détaillées pour tous les objets, est fascinante pour les applications en aval mais reste un défi, en particulier avec des vues éparses en entrée. Les approches récentes intègrent une régularisation sémantique ou géométrique pour résoudre ce problème, mais elles subissent une dégradation significative dans les zones sous-contraintes et échouent à reconstruire les régions occluses. Nous soutenons que la clé pour résoudre ce problème réside dans la fourniture d'informations manquantes pour ces zones. À cette fin, nous proposons DP-Recon, qui utilise des a priori de diffusion sous la forme de Score Distillation Sampling (SDS) pour optimiser la représentation neuronale de chaque objet individuel sous de nouvelles vues. Cela fournit des informations supplémentaires pour les zones sous-contraintes, mais l'intégration directe de l'a priori de diffusion soulève des conflits potentiels entre la reconstruction et le guidage génératif. Par conséquent, nous introduisons en outre une approche guidée par la visibilité pour ajuster dynamiquement les poids de la perte SDS par pixel. Ensemble, ces composants améliorent à la fois la récupération de la géométrie et de l'apparence tout en restant fidèles aux images d'entrée. Des expériences approfondies sur Replica et ScanNet++ démontrent que notre méthode surpasse significativement les méthodes de l'état de l'art (SOTA). Notamment, elle obtient une meilleure reconstruction d'objets avec 10 vues que les méthodes de référence avec 100 vues. Notre méthode permet un édition fluide basée sur le texte pour la géométrie et l'apparence grâce à l'optimisation SDS et produit des maillages d'objets décomposés avec des cartes UV détaillées qui supportent l'édition d'effets visuels (VFX) photoréalistes. La page du projet est disponible à l'adresse https://dp-recon.github.io/.
Les récentes avancées dans les modèles multi-modaux de grande taille (LMMs) se concentrent principalement sur la compréhension vidéo hors ligne. En revanche, la compréhension vidéo en flux continu pose de grands défis aux modèles récents en raison de ses caractéristiques sensibles au temps, omni-modales et interactives. Dans ce travail, nous visons à étendre la compréhension vidéo en flux continu sous un nouvel angle et proposons une nouvelle tâche nommée Feedback d'Instructions Visuelles, dans laquelle les modèles doivent être conscients des contenus visuels et apprendre à en extraire des instructions. Par exemple, lorsque les utilisateurs font des gestes aux agents, ces derniers devraient reconnaître le geste et entamer des conversations avec des informations de bienvenue. Ainsi, suivre des instructions dans la modalité visuelle améliore grandement les interactions utilisateur-agent. Pour faciliter la recherche, nous définissons sept sous-tâches clés hautement pertinentes pour la modalité visuelle et collectons le jeu de données ViSpeak-Instruct pour l'entraînement et le ViSpeak-Bench pour l'évaluation. De plus, nous proposons le modèle ViSpeak, qui est un LMM de compréhension vidéo en flux continu de pointe, offrant des performances de niveau GPT-4o sur divers benchmarks de compréhension vidéo en flux continu. Après un ajustement fin sur notre jeu de données ViSpeak-Instruct, ViSpeak est doté d'une capacité de base de feedback d'instructions visuelles, servant de base solide pour les recherches futures.
L'ingénierie automatisée des caractéristiques joue un rôle crucial dans l'amélioration des performances des modèles prédictifs pour les tâches d'apprentissage tabulaire. Les méthodes traditionnelles d'ingénierie automatisée des caractéristiques sont limitées par leur dépendance à des transformations prédéfinies dans des espaces de recherche fixes et conçus manuellement, négligeant souvent les connaissances du domaine. Les avancées récentes utilisant les modèles de langage à grande échelle (LLM) ont permis l'intégration des connaissances du domaine dans le processus d'ingénierie des caractéristiques. Cependant, les approches existantes basées sur les LLM utilisent des invites directes ou s'appuient uniquement sur les scores de validation pour la sélection des caractéristiques, ne tirant pas parti des insights issus des expériences précédentes de découverte de caractéristiques ni n'établissant de raisonnement significatif entre la génération des caractéristiques et les performances basées sur les données. Pour relever ces défis, nous proposons LLM-FE, un cadre novateur qui combine la recherche évolutive avec les connaissances du domaine et les capacités de raisonnement des LLM pour découvrir automatiquement des caractéristiques efficaces pour les tâches d'apprentissage tabulaire. LLM-FE formule l'ingénierie des caractéristiques comme un problème de recherche de programmes, où les LLM proposent itérativement de nouveaux programmes de transformation de caractéristiques, et où les retours basés sur les données guident le processus de recherche. Nos résultats démontrent que LLM-FE surpasse systématiquement les meilleures méthodes de référence, améliorant significativement les performances des modèles de prédiction tabulaire sur divers benchmarks de classification et de régression.
La génération de portraits parlants à partir d'une seule image et d'un signal audio joue un rôle crucial dans la réalité virtuelle, la création d'humains numériques et la production cinématographique. Les approches existantes sont généralement classées en méthodes basées sur des points clés et méthodes basées sur l'image. Les méthodes basées sur des points clés préservent efficacement l'identité du personnage, mais peinent à capturer les détails fins du visage en raison des limitations des points fixes du modèle morphable 3D. De plus, les réseaux génératifs traditionnels rencontrent des difficultés à établir une causalité entre l'audio et les points clés sur des ensembles de données limités, ce qui entraîne une faible diversité des poses. En revanche, les approches basées sur l'image produisent des portraits de haute qualité avec des détails variés en utilisant des réseaux de diffusion, mais souffrent de distorsions d'identité et de coûts de calcul élevés. Dans ce travail, nous proposons KDTalker, le premier cadre combinant des points clés 3D implicites non supervisés avec un modèle de diffusion spatiotemporelle. En exploitant des points clés 3D implicites non supervisés, KDTalker adapte les densités d'information faciale, permettant au processus de diffusion de modéliser diverses poses de tête et de capturer les détails fins du visage de manière flexible. Le mécanisme d'attention spatiotemporelle sur mesure assure une synchronisation labiale précise, produisant des animations temporellement cohérentes et de haute qualité tout en améliorant l'efficacité computationnelle. Les résultats expérimentaux montrent que KDTalker atteint des performances de pointe en termes de précision de synchronisation labiale, de diversité des poses de tête et d'efficacité d'exécution. Nos codes sont disponibles à l'adresse https://github.com/chaolongy/KDTalker.
Nous présentons ELTEX (Efficient LLM Token Extraction), un cadre orienté domaine pour générer des données d'entraînement synthétiques de haute qualité dans des domaines spécialisés. Bien que les modèles de langage de grande taille (LLMs) aient démontré des capacités générales impressionnantes, leurs performances dans des domaines spécialisés comme la cybersécurité restent limitées par la rareté des données d'entraînement spécifiques au domaine. ELTEX relève ce défi en intégrant systématiquement l'extraction d'indicateurs de domaine explicites avec un prompting dynamique pour préserver les connaissances critiques du domaine tout au long du processus de génération. Nous démontrons l'efficacité d'ELTEX dans le contexte de la détection de cyberattaques liées à la blockchain, où nous affinons Gemma-2B en utilisant diverses combinaisons de données réelles et générées par ELTEX. Nos résultats montrent que le modèle amélioré par ELTEX atteint des performances comparables à celles de GPT-4 à la fois en termes de métriques de classification standard et de calibration de l'incertitude, tout en nécessitant nettement moins de ressources computationnelles. Nous publions un ensemble de données synthétiques soigneusement sélectionné de textes de médias sociaux pour la détection de cyberattaques dans la blockchain. Notre travail démontre que la génération de données synthétiques orientée domaine peut combler efficacement l'écart de performance entre les modèles économes en ressources et les architectures plus volumineuses dans des domaines spécialisés.
Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont démontré des capacités de raisonnement améliorées, évoluant des techniques de chaîne de pensée (Chain-of-Thought, CoT) vers des solutions avancées et orientées produit comme OpenAI o1. Lors de notre réimplémentation de ce modèle, nous avons remarqué que dans les tâches multimodales nécessitant une entrée visuelle (par exemple, des problèmes de géométrie), les LLMs multimodaux (MLLMs) peinent à maintenir leur attention sur l'information visuelle. En d'autres termes, les MLLMs subissent une diminution progressive de l'attention portée à l'information visuelle au fur et à mesure que le raisonnement progresse, ce qui entraîne une surdépendance aux sorties textuelles. Pour étudier ce phénomène, nous avons supprimé les entrées d'images lors de raisonnements à chaîne longue. Concrètement, nous avons interrompu le processus de raisonnement à mi-parcours, puis avons repris ce processus en supprimant l'image d'entrée. Nous avons observé une baisse de précision d'environ 2 % sur le sous-ensemble test-hard de MathVista, révélant que les sorties textuelles du modèle dominent le processus de raisonnement ultérieur. Motivés par cette observation, nous proposons le conditionnement visuel "Take-along" (TVC), une stratégie qui déplace l'entrée d'image vers les étapes critiques du raisonnement et compresse les tokens visuels redondants via un élagage dynamique. Cette méthodologie aide le modèle à maintenir son attention sur les composants visuels tout au long du raisonnement. Notre approche atteint des performances de pointe en moyenne sur cinq benchmarks de raisonnement mathématique (+3,4 % par rapport au précédent état de l'art), démontrant l'efficacité du TVC pour améliorer les systèmes de raisonnement multimodal.
La résolution de problèmes scientifiques implique la synthèse d'informations tout en appliquant des connaissances expertes. Nous présentons CURIE, un benchmark de Compréhension contextuelle longue, de Raisonnement et d'Extraction d'Informations scientifiques, conçu pour mesurer le potentiel des modèles de langage à grande échelle (LLMs) dans la résolution de problèmes scientifiques et l'assistance aux scientifiques dans des workflows réalistes. Ce benchmark introduit dix tâches complexes comprenant un total de 580 paires de problèmes et de solutions, élaborées par des experts dans six disciplines : la science des matériaux, la physique de la matière condensée, l'informatique quantique, l'analyse géospatiale, la biodiversité et les protéines - couvrant à la fois les workflows expérimentaux et théoriques en science. Nous évaluons une gamme de LLMs fermés et ouverts sur les tâches de CURIE, qui nécessitent une expertise domainale, la compréhension d'informations contextuelles longues et un raisonnement en plusieurs étapes. Alors que Gemini Flash 2.0 et Claude-3 montrent une compréhension élevée et constante à travers les domaines, les populaires GPT-4o et command-R+ échouent de manière spectaculaire sur les tâches de séquençage de protéines. Avec la meilleure performance à 32 %, il y a encore beaucoup de place pour l'amélioration de tous les modèles. Nous espérons que les insights tirés de CURIE pourront guider le développement futur des LLMs dans les sciences. Le code d'évaluation et les données sont disponibles sur https://github.com/google/curie.
Dans les environnements multi-agents complexes, parvenir à un apprentissage efficace et à des comportements souhaitables constitue un défi majeur pour les systèmes d'apprentissage par renforcement multi-agent (MARL). Ce travail explore le potentiel de la combinaison du MARL avec des interventions médiées par des modèles de langage de grande taille (LLM) pour guider les agents vers des comportements plus désirables. Plus précisément, nous étudions comment les LLM peuvent être utilisés pour interpréter et faciliter des interventions qui façonnent les trajectoires d'apprentissage de plusieurs agents. Nous avons expérimenté avec deux types d'interventions, appelées contrôleurs : un Contrôleur en Langage Naturel (NL) et un Contrôleur Basé sur des Règles (RB). Le Contrôleur NL, qui utilise un LLM pour simuler des interventions de type humain, a montré un impact plus fort que le Contrôleur RB. Nos résultats indiquent que les agents bénéficient particulièrement d'interventions précoces, conduisant à un entraînement plus efficace et à de meilleures performances. Les deux types d'intervention surpassent le scénario de référence sans interventions, soulignant le potentiel de la guidance médiée par LLM pour accélérer l'entraînement et améliorer les performances du MARL dans des environnements complexes.