Articles de recherche en IA sélectionnés quotidiennement avec traductions
De manière systématique, nous examinons une question largement posée : Les LLM comprennent-ils vraiment ce qu'ils disent ?, qui est liée au terme plus familier de Perroquet Stochastique. À cette fin, nous proposons une évaluation sommative sur une tâche de compréhension de concept physique soigneusement conçue, PhysiCo. Notre tâche atténue le problème de mémorisation en utilisant des entrées au format grille qui décrivent de manière abstraite des phénomènes physiques. Les grilles représentent différents niveaux de compréhension, allant du phénomène de base, des exemples d'application aux analogies avec d'autres schémas abstraits dans le monde en grille. Une étude approfondie sur notre tâche démontre : (1) les LLM de pointe, y compris GPT-4o, o1 et Gemini 2.0 flash thinking, sont en retard par rapport aux humains d'environ 40 % ; (2) le phénomène du perroquet stochastique est présent dans les LLM, car ils échouent sur notre tâche en grille mais peuvent bien décrire et reconnaître les mêmes concepts en langage naturel ; (3) notre tâche met les LLM au défi en raison de difficultés intrinsèques plutôt que du format de grille peu familier, car l'apprentissage en contexte et le fine-tuning sur des données formatées de la même manière ont peu amélioré leurs performances.
Dans les modèles de langage de grande taille (LLM) modernes, la gestion de longueurs de contexte très étendues pose des défis importants car elle entraîne des vitesses d'inférence plus lentes et des coûts de mémoire accrus. De plus, la plupart des LLM pré-entraînés existants échouent à généraliser au-delà de leurs longueurs de séquence d'entraînement d'origine. Pour permettre une utilisation efficace et pratique des contextes longs, nous introduisons InfiniteHiP, un cadre d'inférence LLM novateur et pratique qui accélère le traitement en éliminant dynamiquement les jetons de contexte non pertinents grâce à un algorithme de taille de jeton hiérarchique modulaire. Notre méthode permet également la généralisation à des séquences plus longues en appliquant sélectivement diverses méthodes d'ajustement de RoPE en fonction des schémas d'attention internes des LLM. De plus, nous déchargeons le cache clé-valeur vers la mémoire hôte pendant l'inférence, réduisant ainsi considérablement la pression sur la mémoire GPU. En conséquence, InfiniteHiP permet le traitement jusqu'à 3 millions de jetons sur un seul GPU L40s 48 Go - 3 fois plus grand - sans aucune perte permanente d'informations de contexte. Notre cadre réalise un gain de vitesse de 18,95 fois dans le décodage de l'attention pour un contexte d'un million de jetons sans nécessiter de formation supplémentaire. Nous implémentons notre méthode dans le cadre SGLang et démontrons son efficacité et sa praticité à travers des évaluations approfondies.
Les encodeurs de texte à grande échelle dans les modèles de diffusion texte-image (T2I) ont démontré des performances exceptionnelles dans la génération d'images de haute qualité à partir de descriptions textuelles. Contrairement aux modules de débruitage qui reposent sur de multiples étapes itératives, les encodeurs de texte ne nécessitent qu'une seule passe avant pour produire des plongements textuels. Cependant, malgré leur contribution minimale au temps total d'inférence et aux opérations en virgule flottante (FLOPs), les encodeurs de texte demandent une utilisation significativement plus élevée de la mémoire, jusqu'à huit fois plus que les modules de débruitage. Pour remédier à cette inefficacité, nous proposons des couches de Saut et de Réutilisation (Skrr), une stratégie de taille simple mais efficace spécifiquement conçue pour les encodeurs de texte dans les modèles de diffusion T2I. Skrr exploite la redondance inhérente dans les blocs transformateurs en sautant ou en réutilisant sélectivement certaines couches d'une manière adaptée aux tâches T2I, réduisant ainsi la consommation de mémoire sans compromettre les performances. Des expériences approfondies démontrent que Skrr maintient une qualité d'image comparable au modèle original même avec des niveaux élevés de parcimonie, surpassant les méthodes de taille par bloc existantes. De plus, Skrr atteint une efficacité mémoire de pointe tout en préservant les performances selon plusieurs critères d'évaluation, y compris les scores FID, CLIP, DreamSim et GenEval.
Les récents progrès dans les techniques de diffusion ont propulsé la génération d'images et de vidéos à des niveaux de qualité sans précédent, accélérant significativement le déploiement et l'application de l'IA générative. Cependant, la technologie de génération de formes 3D a jusqu'à présent accusé un retard, entravée par des limitations dans l'échelle des données 3D, la complexité du traitement des données 3D, et une exploration insuffisante des techniques avancées dans le domaine 3D. Les approches actuelles de génération de formes 3D rencontrent d'importants défis en termes de qualité de sortie, de capacité de généralisation et d'alignement avec les conditions d'entrée. Nous présentons TripoSG, un nouveau paradigme de diffusion de formes rationalisé capable de générer des maillages 3D de haute fidélité avec une correspondance précise aux images d'entrée. Plus précisément, nous proposons : 1) Un transformateur de flux rectifié à grande échelle pour la génération de formes 3D, atteignant un niveau de fidélité de pointe grâce à un entraînement sur des données étendues et de haute qualité. 2) Une stratégie d'entraînement supervisée hybride combinant des pertes SDF, normales et eikonal pour les VAE 3D, atteignant des performances de reconstruction 3D de haute qualité. 3) Un pipeline de traitement des données pour générer 2 millions d'échantillons 3D de haute qualité, mettant en lumière les règles cruciales pour la qualité et la quantité des données dans l'entraînement des modèles génératifs 3D. À travers des expériences complètes, nous avons validé l'efficacité de chaque composant de notre nouveau cadre. L'intégration transparente de ces parties a permis à TripoSG d'atteindre des performances de pointe en matière de génération de formes 3D. Les formes 3D résultantes présentent des détails améliorés grâce à des capacités haute résolution et démontrent une fidélité exceptionnelle aux images d'entrée. De plus, TripoSG démontre une polyvalence améliorée dans la génération de modèles 3D à partir de styles et de contenus d'images divers, mettant en valeur de solides capacités de généralisation. Pour favoriser le progrès et l'innovation dans le domaine de la génération 3D, nous rendrons notre modèle publiquement disponible.
Avec le nombre croissant de modèles disponibles publiquement, il existe probablement des modèles pré-entraînés en ligne pour la plupart des tâches requises par les utilisateurs. Cependant, les méthodes actuelles de recherche de modèles sont rudimentaires, essentiellement basées sur une recherche textuelle dans la documentation, ce qui empêche les utilisateurs de trouver les modèles pertinents. Cet article présente ProbeLog, une méthode pour récupérer des modèles de classification capables de reconnaître un concept cible, tel que "Chien", sans accès aux métadonnées du modèle ou aux données d'entraînement. Contrairement aux méthodes de sondage précédentes, ProbeLog calcule un descripteur pour chaque dimension de sortie (logit) de chaque modèle, en observant ses réponses sur un ensemble fixe d'entrées (sondes). Notre méthode prend en charge à la fois la récupération basée sur les logits ("trouver plus de logits comme celui-ci") et la récupération basée sur du texte en zéro-shot ("trouver tous les logits correspondant aux chiens"). Comme les représentations basées sur le sondage nécessitent de multiples passages coûteux en avant à travers le modèle, nous développons une méthode, basée sur le filtrage collaboratif, qui réduit le coût de l'encodage des référentiels de 3 fois. Nous démontrons que ProbeLog atteint une précision élevée en matière de récupération, tant dans des tâches de recherche du monde réel que dans des tâches de recherche fines, et est scalable pour des référentiels de taille réelle.
Nous présentons SelfCite, une nouvelle approche auto-supervisée qui aligne les LLMs pour générer des citations de haute qualité et détaillées au niveau des phrases pour les énoncés dans leurs réponses générées. Au lieu de se fier uniquement à des annotations coûteuses et intensives en main-d'œuvre, SelfCite exploite un signal de récompense fourni par le LLM lui-même grâce à l'ablation de contexte : si une citation est nécessaire, supprimer le texte cité du contexte devrait empêcher la même réponse ; si elle est suffisante, conserver uniquement le texte cité devrait préserver la même réponse. Cette récompense peut guider la stratégie d'échantillonnage best-of-N au moment de l'inférence pour améliorer significativement la qualité des citations, ainsi que être utilisée dans l'optimisation des préférences pour ajuster directement les modèles afin de générer de meilleures citations. L'efficacité de SelfCite est démontrée en augmentant le score F1 des citations jusqu'à 5,3 points sur le banc d'essai LongBench-Cite à travers cinq tâches de question-réponse de longue forme.
L'utilisation des Modèles de Langage Multimodaux de Grande Taille (MLLM) pour créer des agents incarnés offre une voie prometteuse pour aborder des tâches du monde réel. Alors que les agents incarnés centrés sur le langage ont suscité une attention considérable, les agents incarnés basés sur les MLLM restent peu explorés en raison du manque de cadres d'évaluation complets. Pour combler cette lacune, nous présentons EmbodiedBench, un vaste banc d'essai conçu pour évaluer les agents incarnés pilotés par la vision. EmbodiedBench comprend : (1) un ensemble diversifié de 1 128 tâches de test réparties dans quatre environnements, allant de tâches sémantiques de haut niveau (par ex., ménage) à des tâches de bas niveau impliquant des actions atomiques (par ex., navigation et manipulation) ; et (2) six sous-ensembles méticuleusement sélectionnés évaluant des capacités essentielles des agents telles que le raisonnement de bon sens, la compréhension d'instructions complexes, la conscience spatiale, la perception visuelle et la planification à long terme. À travers des expériences approfondies, nous avons évalué 13 principaux MLLM propriétaires et open source au sein d'EmbodiedBench. Nos résultats révèlent que : les MLLM excellent dans les tâches de haut niveau mais éprouvent des difficultés avec la manipulation de bas niveau, le meilleur modèle, GPT-4o, obtenant en moyenne seulement 28,9 %. EmbodiedBench offre une plateforme d'évaluation standardisée multifacette qui met en lumière non seulement les défis existants, mais offre également des perspectives précieuses pour faire progresser les agents incarnés basés sur les MLLM. Notre code est disponible sur https://embodiedbench.github.io.
Cet article examine les méthodologies de sélection de données et de fusion de modèles visant à intégrer des capacités de raisonnement avancées telles que celles de DeepSeek R1 dans des grands modèles de langage (LLM) spécifiques à une langue, en mettant particulièrement l'accent sur le LLM thaïlandais. Notre objectif est d'améliorer les capacités de raisonnement des LLM spécifiques à une langue tout en préservant leurs compétences linguistiques cibles. DeepSeek R1 excelle dans le raisonnement mais profite principalement aux langues à ressources élevées telles que l'anglais et le chinois. Cependant, les langues à faibles ressources restent sous-desservies en raison de la domination des données d'entraînement et des optimisations de modèles centrées sur l'anglais, ce qui limite les performances dans ces langues. Cette limitation se traduit par un commutation de code peu fiable et une efficacité réduite dans les tâches des langues à faibles ressources. Pendant ce temps, des initiatives locales et régionales de LLM ont tenté de combler ce fossé en développant des LLM spécifiques à une langue qui se concentrent sur l'amélioration de la fidélité linguistique locale. Nous démontrons qu'avec seulement des ensembles de données disponibles publiquement et un budget informatique de 120 $, il est possible d'améliorer les capacités de raisonnement des LLM spécifiques à une langue pour les faire correspondre au niveau de DeepSeek R1, sans compromettre leurs performances sur les tâches de la langue cible.
Les agents de langage de jeu de rôle (RPLA) ont émergé comme des applications prometteuses des grands modèles de langage (LLM). Cependant, la simulation de personnages établis représente une tâche difficile pour les RPLA, en raison du manque de jeux de données de personnages authentiques et de méthodes d'évaluation nuancées utilisant de telles données. Dans cet article, nous présentons CoSER, une collection d'un jeu de données de haute qualité, de modèles ouverts et d'un protocole d'évaluation pour des RPLA efficaces de personnages établis. Le jeu de données CoSER couvre 17 966 personnages issus de 771 livres renommés. Il fournit des dialogues authentiques avec des subtilités du monde réel, ainsi que divers types de données tels que des mises en place de conversations, des expériences de personnages et des pensées internes. S'inspirant de la méthodologie de l'acting, nous introduisons l'acting de circonstances données pour l'entraînement et l'évaluation des LLM de jeu de rôle, où les LLM dépeignent séquentiellement plusieurs personnages dans des scènes de livre. En utilisant notre jeu de données, nous développons CoSER 8B et CoSER 70B, c'est-à-dire des LLM de jeu de rôle ouverts avancés construits sur les modèles LLaMA-3.1. Des expériences approfondies démontrent la valeur du jeu de données CoSER pour l'entraînement, l'évaluation et la récupération des RPLA. De plus, CoSER 70B présente des performances de pointe dépassant ou égalant GPT-4o sur notre évaluation et trois benchmarks existants, c'est-à-dire atteignant respectivement 75,80 % et 93,47 % de précision sur les benchmarks InCharacter et LifeChoice.
La capacité de raisonnement des Grands Modèles de Langage (LLM) a été considérablement améliorée en répondant aux questions avec la Chaîne de Pensée (CoT), cependant son impact sur les Grands Modèles Multimodaux (LMM) manque encore d'une évaluation systématique et d'une investigation approfondie. Dans cet article, nous présentons MME-CoT, un banc d'essai spécialisé évaluant les performances de raisonnement CoT des LMM, couvrant six domaines : mathématiques, sciences, OCR, logique, espace-temps et scènes générales. En tant que première étude complète dans ce domaine, nous proposons une suite d'évaluation approfondie comprenant trois nouvelles mesures évaluant la qualité, la robustesse et l'efficacité du raisonnement à un niveau fin. En exploitant des données de haute qualité sélectionnées et une stratégie d'évaluation unique, nous menons une analyse approfondie des LMM de pointe, révélant plusieurs idées clés : 1) Les modèles avec mécanisme de réflexion démontrent une qualité CoT supérieure, avec Kimi k1.5 surpassant GPT-4o et présentant les meilleurs résultats en termes de qualité ; 2) Les incitations CoT dégradent souvent les performances des LMM sur les tâches lourdes en perception, suggérant un comportement potentiellement nuisible de surpenser ; et 3) Bien que la qualité CoT soit élevée, les LMM avec réflexion présentent une inefficacité significative à la fois dans la réponse normale et les phases d'autocorrection. Nous espérons que MME-CoT servira de base pour faire progresser le raisonnement multimodal dans les LMM. Page du projet : https://mmecot.github.io/
Les architectures sans encodeur ont été explorées de manière préliminaire dans le domaine visuel en 2D, mais il reste une question ouverte de savoir si elles peuvent être efficacement appliquées aux scénarios de compréhension en 3D. Dans cet article, nous présentons la première investigation complète sur le potentiel des architectures sans encodeur pour surmonter les défis des grands modèles multimodaux 3D sans encodeur (LMM). Ces défis incluent l'incapacité à s'adapter aux résolutions variables des nuages de points et le fait que les caractéristiques des points de l'encodeur ne répondent pas aux besoins sémantiques des grands modèles de langage (LLM). Nous identifions les aspects clés pour les LMM 3D afin de supprimer l'encodeur et permettre au LLM d'assumer le rôle de l'encodeur 3D : 1) Nous proposons la stratégie d'encodage sémantique intégrée au LLM lors de l'étape de pré-entraînement, en explorant les effets de diverses pertes auto-supervisées des nuages de points. Et nous présentons la perte sémantique hybride pour extraire des sémantiques de haut niveau. 2) Nous introduisons la stratégie d'agrégation géométrique hiérarchique lors de l'étape de réglage de l'instruction. Cela incorpore un biais inductif dans les premières couches du LLM pour se concentrer sur les détails locaux des nuages de points. En fin de compte, nous présentons le premier LMM 3D sans encodeur, ENEL. Notre modèle 7B rivalise avec le modèle de pointe actuel, ShapeLLM-13B, atteignant respectivement 55,0 %, 50,92 % et 42,7 % dans les tâches de classification, de légendage et de VQA. Nos résultats démontrent que l'architecture sans encodeur est très prometteuse pour remplacer les architectures basées sur l'encodeur dans le domaine de la compréhension 3D. Le code est disponible sur https://github.com/Ivan-Tang-3D/ENEL.
Avec l'émergence de modèles de raisonnement avancés tels que OpenAI o3 et DeepSeek-R1, les grands modèles de langage (GML) ont démontré des capacités de raisonnement remarquables. Cependant, leur capacité à effectuer un raisonnement logique rigoureux reste une question ouverte. Cette enquête synthétise les récents progrès en matière de raisonnement logique au sein des GML, un domaine critique de la recherche en IA. Elle décrit le champ du raisonnement logique dans les GML, ses fondements théoriques et les benchmarks utilisés pour évaluer la compétence en raisonnement. Nous analysons les capacités existantes à travers différents paradigmes de raisonnement - déductif, inductif, abductif et analogique - et évaluons les stratégies pour améliorer les performances en raisonnement, y compris l'ajustement centré sur les données, l'apprentissage par renforcement, les stratégies de décodage et les approches neuro-symboliques. La revue se conclut par des orientations futures, en soulignant la nécessité d'une exploration approfondie pour renforcer le raisonnement logique dans les systèmes d'IA.
Dans le domaine en constante évolution du Traitement Automatique du Langage Naturel, les Grands Modèles de Langue (LLMs) sont chargés de défis de raisonnement de plus en plus complexes. Les méthodes traditionnelles telles que les incitations en chaîne de pensée ont montré des promesses mais souvent échouent à exploiter pleinement les capacités de raisonnement d'un modèle. Cet article présente SQuARE (Sequential Question Answering Reasoning Engine), une nouvelle technique d'incitation conçue pour améliorer le raisonnement à travers un paradigme d'auto-interrogation. En s'appuyant sur les cadres CoT, SQuARE incite les modèles à générer et résoudre plusieurs questions auxiliaires avant d'aborder la requête principale, favorisant une exploration plus approfondie des différents aspects d'un sujet. Nos évaluations approfondies, menées avec les modèles Llama 3 et GPT-4o sur plusieurs ensembles de données de questions-réponses, démontrent que SQuARE dépasse significativement les incitations CoT traditionnelles et les méthodes existantes de reformulation et de réponse. En décomposant systématiquement les requêtes, SQuARE fait progresser les capacités des LLM dans les tâches de raisonnement. Le code est publiquement disponible sur https://github.com/IntelLabs/RAG-FiT/tree/square.
Cet article présente Typhoon T1, un effort ouvert visant à développer un modèle de raisonnement thaïlandais ouvert. Un modèle de raisonnement est un type relativement nouveau de modèle génératif construit sur des modèles de langage de grande taille (LLM). Un modèle de raisonnement génère une longue chaîne de pensées avant d'arriver à une réponse finale, une approche qui s'est avérée améliorer les performances sur des tâches complexes. Cependant, les détails sur le développement d'un tel modèle sont limités, en particulier pour les modèles de raisonnement capables de générer des traces dans une langue à faibles ressources. Typhoon T1 présente un effort ouvert qui explore en détail le développement d'un modèle de raisonnement de manière plus rentable en utilisant un accordage fin supervisé avec des ensembles de données ouverts, au lieu de l'apprentissage par renforcement. Cet article partage les détails sur la génération de données synthétiques et l'entraînement, ainsi que notre ensemble de données et les poids du modèle. De plus, nous fournissons des perspectives acquises lors du développement d'un modèle de raisonnement qui généralise à travers les domaines et est capable de générer des traces de raisonnement dans une langue à faibles ressources, en utilisant le thaïlandais comme exemple. Nous espérons que cet effort ouvert posera les bases pour de futures recherches dans ce domaine.
La Chaîne de Pensée améliore significativement la capacité de raisonnement d'un modèle, mais entraîne également une augmentation considérable des coûts d'inférence en raison des longues chaînes. En observant que le chemin de raisonnement peut être facilement compressé pour les tâches simples mais poser problème pour les tâches difficiles, nous explorons la faisabilité de contrôler élastiquement la longueur des chemins de raisonnement avec un seul modèle, réduisant ainsi la surcharge d'inférence des modèles de raisonnement de manière dynamique en fonction de la difficulté de la tâche. Nous introduisons une nouvelle stratégie d'ajustement et d'inférence appelée CoT-Valve, conçue pour permettre aux modèles de générer des chaînes de raisonnement de longueurs variables. Pour y parvenir, nous proposons d'identifier une direction dans l'espace des paramètres qui, une fois manipulée, peut contrôler efficacement la longueur de CoT généré. De plus, nous montrons que cette propriété est précieuse pour la compression de la chaîne de raisonnement. Nous construisons des ensembles de données avec des chaînes de longues à courtes pour les mêmes questions et explorons deux stratégies améliorées pour CoT-Valve : (1) une méthode d'ajustement CoT précisément compressible en longueur, et (2) une approche progressive de compression de la longueur de la chaîne. Nos expériences montrent que CoT-Valve permet avec succès la contrôlabilité et la compressibilité de la chaîne et affiche de meilleures performances que le contrôle basé sur les instructions. Nous avons appliqué cette méthode à QwQ-32B-Preview, réduisant les chaînes de raisonnement sur GSM8K de 741 à 225 jetons avec une légère baisse de performance (95,07 % à 94,92 %) et sur AIME de 6827 à 4629 jetons, avec seulement une réponse incorrecte supplémentaire.
Les modèles d'incorporation multimodale ont attiré une attention significative pour leur capacité à mapper des données provenant de différentes modalités, telles que le texte et les images, dans un espace de représentation unifié. Cependant, le manque de données multimodales étiquetées limite souvent les performances de l'incorporation. Des approches récentes ont exploité la synthèse de données pour résoudre ce problème, mais la qualité des données synthétiques reste un goulot d'étranglement critique. Dans ce travail, nous identifions trois critères pour des données multimodales synthétiques de haute qualité. Premièrement, une portée large garantit que les données générées couvrent diverses tâches et modalités, les rendant applicables à divers scénarios en aval. Deuxièmement, un alignement croisé robuste entre les modalités rend les différentes modalités sémantiquement cohérentes. Troisièmement, une haute fidélité garantit que les données synthétiques conservent des détails réalistes pour améliorer leur fiabilité. Guidés par ces principes, nous synthétisons des ensembles de données qui : (1) couvrent une large gamme de tâches, de combinaisons de modalités et de langues, (2) sont générés via un processus de réflexion approfondie dans un seul passage d'un grand modèle de langage multimodal, et (3) intègrent des images du monde réel avec des textes précis et pertinents, garantissant la fidélité par auto-évaluation et raffinement. En exploitant ces ensembles de données synthétiques et étiquetés de haute qualité, nous entraînons un modèle E5 multimodal multilingue mmE5. Des expériences approfondies montrent que mmE5 atteint des performances de pointe sur le benchmark MMEB et des performances multilingues supérieures sur le benchmark XTD. Nos codes, ensembles de données et modèles sont disponibles sur https://github.com/haon-chen/mmE5.
Nous abordons le défi de développer un contrôleur de suivi neuronal généralisable pour la manipulation habile à partir de références humaines. Ce contrôleur vise à gérer une main de robot habile pour manipuler divers objets à des fins variées définies par les interactions cinématiques humain-objet. Le développement d'un tel contrôleur est compliqué par la dynamique de contact complexe de la manipulation habile et la nécessité d'adaptabilité, de généralisabilité et de robustesse. Les méthodes actuelles d'apprentissage par renforcement et d'optimisation de trajectoire sont souvent insuffisantes en raison de leur dépendance aux récompenses spécifiques à la tâche ou aux modèles précis du système. Nous introduisons une approche qui sélectionne de vastes démonstrations réussies de suivi de robot, comprenant des paires de références humaines et d'actions de robot, pour entraîner un contrôleur neuronal. En utilisant un mécanisme de rétroaction de données, nous améliorons de manière itérative les performances du contrôleur, ainsi que le nombre et la qualité des démonstrations de suivi réussies. Nous exploitons les démonstrations de suivi disponibles et intégrons soigneusement l'apprentissage par renforcement et l'apprentissage par imitation pour améliorer les performances du contrôleur dans des environnements dynamiques. En parallèle, pour obtenir des démonstrations de suivi de haute qualité, nous optimisons individuellement le suivi par trajectoire en tirant parti du contrôleur de suivi appris dans une méthode d'optimisation homotopique. L'optimisation homotopique, imitant une chaîne de pensée, aide à résoudre des problèmes complexes de suivi de trajectoire pour augmenter la diversité des démonstrations. Nous démontrons notre réussite en formant un contrôleur neuronal généralisable et en l'évaluant à la fois en simulation et dans le monde réel. Notre méthode atteint plus de 10% d'amélioration des taux de réussite par rapport aux références principales. Le site web du projet avec des résultats animés est disponible à l'adresse https://meowuu7.github.io/DexTrack/.
Le raisonnement mathématique dans les Grands Modèles de Langage (GML) est souvent évalué à l'aide de références avec des plages numériques limitées, ne reflétant pas la résolution de problèmes du monde réel à travers des échelles diverses. De plus, la plupart des méthodes d'évaluation existantes comparent uniquement les sorties du modèle aux réponses réelles, obscurcissant ainsi les informations sur les processus de raisonnement. Pour remédier à ces limitations, nous introduisons GSM-Ranges, un générateur de jeux de données dérivé de GSM8K qui perturbe systématiquement les valeurs numériques dans les problèmes mathématiques pour évaluer la robustesse du modèle à travers différentes échelles numériques. De plus, nous proposons une nouvelle méthodologie de notation qui distingue entre les erreurs logiques et non logiques, offrant une évaluation plus précise des processus de raisonnement au-delà de la précision computationnelle. Nos expériences avec différents modèles révèlent une augmentation significative des taux d'erreurs logiques - jusqu'à 14 points de pourcentage - à mesure que la complexité numérique augmente, démontrant une faiblesse générale dans le raisonnement avec des valeurs numériques hors distribution. De plus, bien que les modèles montrent une grande précision dans les tâches arithmétiques autonomes, leurs performances se détériorent considérablement lorsque les calculs sont intégrés dans des problèmes en langage naturel. Ces résultats fournissent une évaluation complète des capacités de raisonnement mathématique des GML et orientent les futures directions de recherche pour améliorer la généralisation numérique dans les modèles de langage.
La création de magie et d'illusions est l'un des aspects les plus passionnants du cinéma, les effets visuels (VFX) étant le moteur derrière des expériences cinématographiques inoubliables. Alors que les récentes avancées en intelligence artificielle générative ont permis des progrès dans la synthèse d'images et de vidéos génériques, le domaine de la génération de VFX contrôlables reste relativement peu exploré. Dans ce travail, nous proposons un nouveau paradigme pour la génération de VFX animés sous forme d'animation d'images, où des effets dynamiques sont générés à partir de descriptions textuelles conviviales et d'images de référence statiques. Notre travail apporte deux contributions principales : (i) Open-VFX, le premier ensemble de données vidéo VFX de haute qualité couvrant 15 catégories d'effets divers, annoté avec des descriptions textuelles, des masques de segmentation d'instances pour le conditionnement spatial, et des horodatages de début et de fin pour le contrôle temporel. (ii) VFX Creator, un cadre de génération de VFX contrôlable simple mais efficace basé sur un Transformateur de Diffusion Vidéo. Le modèle intègre un adaptateur LoRA contrôlable spatialement et temporellement, nécessitant un nombre minimal de vidéos d'entraînement. En particulier, un module de contrôle de masque plug-and-play permet une manipulation spatiale au niveau de l'instance, tandis que les horodatages de mouvement de début et de fin tokenisés intégrés dans le processus de diffusion, aux côtés de l'encodeur de texte, permettent un contrôle temporel précis sur la synchronisation et le rythme des effets. Des expériences approfondies sur l'ensemble de test Open-VFX démontrent la supériorité du système proposé dans la génération d'effets réalistes et dynamiques, atteignant des performances de pointe et une capacité de généralisation en termes de contrôlabilité spatiale et temporelle. De plus, nous introduisons une mesure spécialisée pour évaluer la précision du contrôle temporel. En combinant les techniques traditionnelles de VFX avec des approches génératives, VFX Creator ouvre de nouvelles possibilités pour une génération d'effets vidéo efficace et de haute qualité, rendant les VFX avancés accessibles à un public plus large.
La reconstruction 3D latente a montré un grand potentiel pour renforcer la compréhension sémantique 3D et la génération 3D en distillant les caractéristiques 2D dans l'espace 3D. Cependant, les approches existantes peinent avec l'écart de domaine entre l'espace des caractéristiques 2D et les représentations 3D, ce qui entraîne une performance de rendu dégradée. Pour relever ce défi, nous proposons un nouveau cadre qui intègre la conscience 3D dans l'espace latent 2D. Le cadre se compose de trois étapes : (1) une méthode d'autoencodage consciente de la correspondance qui améliore la cohérence 3D des représentations latentes 2D, (2) un champ de radiance latent (LRF) qui élève ces représentations 2D conscientes de la 3D dans l'espace 3D, et (3) une stratégie d'alignement VAE-Champ de Radiance (VAE-RF) qui améliore le décodage d'image à partir des représentations 2D rendues. Des expériences approfondies démontrent que notre méthode surpasse les approches de reconstruction 3D latente de pointe en termes de performance de synthèse et de généralisabilité inter-ensembles de données à travers diverses scènes intérieures et extérieures. À notre connaissance, il s'agit du premier travail montrant que les représentations de champ de radiance construites à partir de représentations latentes 2D peuvent produire des performances de reconstruction 3D photoréalistes.
La détection d'anomalies industrielle progresse grâce à des ensembles de données tels que MVTec-AD et VisA. Cependant, ils souffrent de limitations en termes de nombre d'échantillons défectueux, de types de défauts et de disponibilité de scènes du monde réel. Ces contraintes empêchent les chercheurs d'explorer davantage les performances de la détection industrielle avec une précision accrue. À cette fin, nous proposons un nouvel ensemble de données de détection d'anomalies à grande échelle appelé 3CAD, dérivé de véritables lignes de production 3C. Plus précisément, le 3CAD proposé comprend huit types différents de pièces fabriquées, totalisant 27 039 images haute résolution étiquetées avec des anomalies au niveau des pixels. Les caractéristiques clés du 3CAD sont qu'il couvre des régions anormales de tailles différentes, plusieurs types d'anomalies, et la possibilité de plusieurs régions anormales et plusieurs types d'anomalies par image d'anomalie. Il s'agit du plus grand et premier ensemble de données de détection d'anomalies dédié au contrôle de qualité des produits 3C pour l'exploration et le développement communautaires. Parallèlement, nous introduisons un cadre simple mais efficace pour la détection d'anomalies non supervisée : un paradigme de détection Grossière-à-Fine avec Guidage de Récupération (CFRG). Pour détecter de petites anomalies de défaut, le CFRG proposé utilise un paradigme de détection grossière-à-fine. Plus précisément, nous utilisons un modèle de distillation hétérogène pour la localisation grossière, puis une localisation fine à travers un modèle de segmentation. De plus, pour mieux capturer les motifs normaux, nous introduisons des caractéristiques de récupération comme guide. Enfin, nous rapportons les résultats de notre cadre CFRG et des méthodes populaires de détection d'anomalies sur l'ensemble de données 3CAD, démontrant une forte compétitivité et fournissant un benchmark très exigeant pour promouvoir le développement du domaine de la détection d'anomalies. Les données et le code sont disponibles : https://github.com/EnquanYang2022/3CAD.