Articles de Recherche IA Quotidiens

Articles de recherche IA sélectionnés quotidiennement avec traductions

OLMoTrace : Retracer les sorties des modèles de langage jusqu'aux billions de tokens d'entraînement
OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

Apr 9

ByJiacheng Liu, Taylor Blanton, Yanai Elazar, Sewon Min, YenSung Chen, Arnavi Chheda-Kothary, Huy Tran, Byron Bischoff, Eric Marsh, Michael Schmitz, Cassidy Trier, Aaron Sarnat, Jenna James, Jon Borchardt, Bailey Kuehl, Evie Cheng, Karen Farley, Sruthi Sreeram, Taira Anderson, David Albright, Carissa Schoenick, Luca Soldaini, Dirk Groeneveld, Rock Yuren Pang, Pang Wei Koh, Noah A. Smith, Sophie Lebrecht, Yejin Choi, Hannaneh Hajishirzi, Ali Farhadi, Jesse Dodge

Nous présentons OLMoTrace, le premier système capable de retracer en temps réel les sorties des modèles de langage jusqu'à leurs données d'entraînement complètes, composées de plusieurs milliers de milliards de tokens. OLMoTrace identifie et affiche les correspondances textuelles exactes entre des segments de sortie des modèles de langage et des documents issus des corpus de textes d'entraînement. Propulsé par une version étendue d'infini-gram (Liu et al., 2024), notre système renvoie les résultats de traçage en quelques secondes. OLMoTrace permet aux utilisateurs de mieux comprendre le comportement des modèles de langage à travers le prisme de leurs données d'entraînement. Nous démontrons comment il peut être utilisé pour explorer la vérification des faits, les hallucinations et la créativité des modèles de langage. OLMoTrace est accessible au public et entièrement open-source.

DDT : Transformateur à Diffusion Découplée
DDT: Decoupled Diffusion Transformer

Apr 8

ByShuai Wang, Zhi Tian, Weilin Huang, Limin Wang

Les transformateurs de diffusion ont démontré une qualité de génération remarquable, bien qu'ils nécessitent des itérations d'entraînement plus longues et de nombreuses étapes d'inférence. À chaque étape de débruitage, les transformateurs de diffusion encodent les entrées bruitées pour extraire la composante sémantique de basse fréquence, puis décodent la composante de haute fréquence avec des modules identiques. Ce schéma crée un dilemme d'optimisation inhérent : l'encodage de la sémantique de basse fréquence nécessite de réduire les composantes de haute fréquence, créant ainsi une tension entre l'encodage sémantique et le décodage de haute fréquence. Pour résoudre ce défi, nous proposons un nouveau \color{ddtD}Transformateur de Diffusion Découplé \color{ddtD}(\color{ddtDDT}), avec une conception découplée comprenant un encodeur de condition dédié pour l'extraction sémantique ainsi qu'un décodeur de vitesse spécialisé. Nos expériences révèlent qu'un encodeur plus substantiel améliore les performances à mesure que la taille du modèle augmente. Pour ImageNet 256x256, notre DDT-XL/2 atteint une nouvelle performance de pointe avec un FID de 1,31 (une convergence d'entraînement près de 4 fois plus rapide par rapport aux transformateurs de diffusion précédents). Pour ImageNet 512x512, notre DDT-XL/2 atteint un nouveau FID de pointe de 1,28. De plus, comme un sous-produit bénéfique, notre architecture découplée améliore la vitesse d'inférence en permettant le partage de l'auto-condition entre les étapes de débruitage adjacentes. Pour minimiser la dégradation des performances, nous proposons une nouvelle approche de programmation dynamique statistique pour identifier les stratégies de partage optimales.

L'absence de prémisses exacerbe la surréflexion : Les modèles de raisonnement perdent-ils leurs compétences en pensée critique ?
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Apr 9

ByChenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou

Nous constatons que la longueur des réponses des LLM de raisonnement, qu'ils soient entraînés par apprentissage par renforcement ou par apprentissage supervisé, augmente considérablement face à des questions mal posées avec des prémisses manquantes (MiP), aboutissant à une pensée redondante et inefficace. Ce scénario nouvellement introduit exacerbe dans une large mesure le problème général de la surréflexion, que nous nommons MiP-Overthinking. Ces échecs vont à l'encontre de la « loi d'échelle au moment du test » mais ont été largement observés sur plusieurs ensembles de données que nous avons constitués avec des MiP, indiquant les méfaits d'une surréflexion bon marché et d'un manque de pensée critique. Étonnamment, les LLM non spécifiquement entraînés pour le raisonnement montrent une bien meilleure performance dans le scénario MiP, produisant des réponses beaucoup plus courtes qui identifient rapidement les requêtes mal posées. Cela révèle une faille critique dans la méthode d'entraînement actuelle des LLM de raisonnement, qui n'encourage pas suffisamment une pensée efficace, conduisant à l'abus de schémas de pensée. Pour approfondir les raisons de ces échecs, nous menons des analyses fines de la longueur du raisonnement, des schémas de surréflexion et de l'emplacement de la pensée critique sur différents types de LLM. De plus, notre étude d'ablation étendue révèle que la surréflexion est contagieuse à travers la distillation des réponses des modèles de raisonnement. Ces résultats améliorent la compréhension de la surréflexion et apportent de nouvelles perspectives pour atténuer ce problème.

FantasyTalking : Génération réaliste de portraits parlants via une synthèse cohérente des mouvements
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

Apr 7

ByMengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu

Créer un avatar animé réaliste à partir d'un simple portrait statique reste un défi. Les approches existantes peinent souvent à capturer les expressions faciales subtiles, les mouvements corporels globaux associés et l'arrière-plan dynamique. Pour surmonter ces limitations, nous proposons un nouveau cadre qui exploite un modèle de transformateur de diffusion vidéo pré-entraîné pour générer des portraits parlants de haute fidélité et cohérents, avec des dynamiques de mouvement contrôlables. Au cœur de notre travail se trouve une stratégie d'alignement audio-visuel en deux étapes. Dans la première étape, nous utilisons un schéma d'entraînement au niveau des clips pour établir un mouvement global cohérent en alignant les dynamiques pilotées par l'audio sur l'ensemble de la scène, incluant le portrait de référence, les objets contextuels et l'arrière-plan. Dans la seconde étape, nous affinons les mouvements des lèvres au niveau des images en utilisant un masque de traçage labial, assurant une synchronisation précise avec les signaux audio. Pour préserver l'identité sans compromettre la flexibilité du mouvement, nous remplaçons le réseau de référence couramment utilisé par un module d'attention croisée centré sur le visage, qui maintient efficacement la cohérence faciale tout au long de la vidéo. De plus, nous intégrons un module de modulation de l'intensité du mouvement qui contrôle explicitement l'intensité des expressions et des mouvements corporels, permettant une manipulation contrôlée des mouvements du portrait au-delà du simple mouvement des lèvres. Les résultats expérimentaux approfondis montrent que notre approche proposée atteint une qualité supérieure avec un meilleur réalisme, une meilleure cohérence, une intensité de mouvement et une préservation de l'identité. Notre page de projet : https://fantasy-amap.github.io/fantasy-talking/.

Un cadre agentique unifié pour l'évaluation de la génération conditionnelle d'images
A Unified Agentic Framework for Evaluating Conditional Image Generation

Apr 9

ByJifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang

La génération d'images conditionnelles a suscité un intérêt considérable pour sa capacité à personnaliser le contenu. Cependant, le domaine est confronté à des défis dans le développement de métriques d'évaluation fiables, explicables et indépendantes de la tâche. Cet article présente CIGEval, un cadre agentique unifié pour l'évaluation complète des tâches de génération d'images conditionnelles. CIGEval utilise des modèles multimodaux de grande taille (LMMs) comme noyau, intégrant une boîte à outils multifonctionnelle et établissant un cadre d'évaluation granulaire. De plus, nous synthétisons des trajectoires d'évaluation pour le fine-tuning, permettant à des LMMs plus petits de sélectionner de manière autonome les outils appropriés et de mener des analyses nuancées basées sur les sorties des outils. Les expériences menées sur sept tâches majeures de génération d'images conditionnelles démontrent que CIGEval (version GPT-4o) atteint une corrélation élevée de 0,4625 avec les évaluations humaines, se rapprochant de la corrélation inter-annotateurs de 0,47. Par ailleurs, lorsqu'il est implémenté avec des LMMs open-source de 7B utilisant seulement 2,3K trajectoires d'entraînement, CIGEval surpasse la méthode précédente basée sur GPT-4o, considérée comme l'état de l'art. Des études de cas sur la génération d'images avec GPT-4o mettent en évidence la capacité de CIGEval à identifier des problèmes subtils liés à la cohérence du sujet et au respect des directives de contrôle, indiquant son grand potentiel pour automatiser l'évaluation des tâches de génération d'images avec une fiabilité comparable à celle des humains.

GenDoP : Génération auto-régressive de trajectoires de caméra en tant que directeur de la photographie
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

Apr 9

ByMengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin

La conception de trajectoires de caméra joue un rôle crucial dans la production vidéo, servant d'outil fondamental pour transmettre l'intention du réalisateur et enrichir la narration visuelle. En cinématographie, les directeurs de la photographie élaborent méticuleusement les mouvements de caméra pour obtenir des cadrages expressifs et intentionnels. Cependant, les méthodes existantes pour la génération de trajectoires de caméra restent limitées : les approches traditionnelles reposent sur l'optimisation géométrique ou des systèmes procéduraux artisanaux, tandis que les méthodes récentes basées sur l'apprentissage héritent souvent de biais structurels ou manquent d'alignement textuel, limitant ainsi la synthèse créative. Dans ce travail, nous introduisons un modèle auto-régressif inspiré de l'expertise des directeurs de la photographie pour générer des trajectoires de caméra artistiques et expressives. Nous présentons d'abord DataDoP, un ensemble de données multi-modales à grande échelle contenant 29K plans réels avec des trajectoires de caméra en mouvement libre, des cartes de profondeur et des descriptions détaillées des mouvements spécifiques, de l'interaction avec la scène et de l'intention du réalisateur. Grâce à cette base de données complète et diversifiée, nous entraînons ensuite un Transformer auto-régressif, uniquement décodeur, pour la génération de mouvements de caméra de haute qualité et conscients du contexte, basée sur des instructions textuelles et des entrées RGBD, nommé GenDoP. Des expériences approfondies démontrent que, par rapport aux méthodes existantes, GenDoP offre une meilleure contrôlabilité, des ajustements de trajectoire plus fins et une plus grande stabilité de mouvement. Nous croyons que notre approche établit une nouvelle norme pour la cinématographie basée sur l'apprentissage, ouvrant la voie à des avancées futures dans le contrôle de la caméra et la réalisation de films. Notre site web de projet : https://kszpxxzmc.github.io/GenDoP/.

Un regard lucide sur les progrès dans le raisonnement des modèles de langage : écueils et voies vers la reproductibilité
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

Apr 9

ByAndreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge

Le raisonnement est apparu comme la prochaine frontière majeure pour les modèles de langage (LMs), avec des avancées rapides provenant à la fois des laboratoires académiques et industriels. Cependant, ces progrès dépassent souvent la rigueur méthodologique, de nombreuses évaluations reposant sur des pratiques de benchmarking manquant de transparence, de robustesse ou de fondements statistiques. Dans ce travail, nous menons une étude empirique approfondie et constatons que les benchmarks actuels en raisonnement mathématique sont très sensibles à des choix d'implémentation subtils - incluant les paramètres de décodage, les graines aléatoires, le formatage des prompts, et même les configurations matérielles et logicielles. Les gains de performance rapportés dans les études récentes dépendent fréquemment de comparaisons floues ou de sources de variance non documentées. Pour résoudre ces problèmes, nous proposons un cadre d'évaluation standardisé avec des meilleures pratiques clairement définies et des normes de reporting. En utilisant ce cadre, nous réévaluons les méthodes récentes et constatons que les approches d'apprentissage par renforcement (RL) n'apportent que des améliorations modestes - bien en deçà des affirmations précédentes - et sont sujettes au sur-apprentissage, en particulier sur des benchmarks à petite échelle comme AIME24. En revanche, les méthodes de fine-tuning supervisé (SFT) montrent une généralisation plus forte et plus cohérente. Pour favoriser la reproductibilité, nous publions tout le code, les prompts et les sorties de modèles pour les benchmarks de raisonnement, établissant ainsi des bases plus rigoureuses pour les travaux futurs.

OmniCaptioner : Un seul générateur de légendes pour tous les régner
OmniCaptioner: One Captioner to Rule Them All

Apr 9

ByYiting Lu, Jiakang Yuan, Zhen Li, Shitian Zhao, Qi Qin, Xinyue Li, Le Zhuo, Licheng Wen, Dongyang Liu, Yuewen Cao, Xiangchao Yan, Xin Li, Botian Shi, Tao Chen, Zhibo Chen, Lei Bai, Bo Zhang, Peng Gao

Nous proposons OmniCaptioner, un cadre polyvalent de génération de légendes visuelles pour produire des descriptions textuelles fines et détaillées dans une grande variété de domaines visuels. Contrairement aux méthodes antérieures limitées à des types d'images spécifiques (par exemple, des images naturelles ou des visuels géométriques), notre cadre offre une solution unifiée pour légender des images naturelles, du texte visuel (par exemple, des affiches, des interfaces utilisateur, des manuels scolaires) et des visuels structurés (par exemple, des documents, des tableaux, des graphiques). En convertissant les informations de pixels de bas niveau en représentations textuelles sémantiquement riches, notre cadre comble le fossé entre les modalités visuelles et textuelles. Nos résultats mettent en évidence trois avantages clés : (i) Un raisonnement visuel amélioré avec les LLM, où les légendes à contexte long des modalités visuelles permettent aux LLM, en particulier la série DeepSeek-R1, de raisonner efficacement dans des scénarios multimodaux ; (ii) Une génération d'images améliorée, où les légendes détaillées améliorent des tâches comme la génération d'images à partir de texte et la transformation d'images ; et (iii) Un réglage fin supervisé (SFT) efficace, qui permet une convergence plus rapide avec moins de données. Nous pensons que la polyvalence et l'adaptabilité d'OmniCaptioner peuvent offrir une nouvelle perspective pour combler le fossé entre les modalités linguistiques et visuelles.

Modèles de Langage à Auto-Pilotage
Self-Steering Language Models

Apr 9

ByGabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas

Bien que le raisonnement au moment du test permette aux modèles de langage de s'attaquer à des tâches complexes, la recherche ou la planification en langage naturel peut être lente, coûteuse et sujette à des erreurs. Cependant, même lorsque les modèles de langage (LMs) peinent à reproduire les étapes de raisonnement précises nécessaires pour résoudre un problème, ils excellent souvent à décrire sa structure abstraite—à la fois comment vérifier les solutions et comment les rechercher. Cet article présente DisCIPL, une méthode pour "auto-piloter" les LMs, où un modèle Planificateur génère un programme d'inférence spécifique à la tâche qui est exécuté par une population de modèles Suiveurs. Notre approche dote les LMs de la capacité à écrire des procédures de recherche récursives qui guident l'inférence des LMs, permettant ainsi de nouvelles formes de raisonnement vérifiable et efficace. Lorsqu'il est instancié avec un petit Suiveur (par exemple, Llama-3.2-1B), DisCIPL rivalise (et parfois surpasse) des modèles beaucoup plus grands, y compris GPT-4o et o1, sur des tâches de génération contrainte difficiles. En découplant la planification de l'exécution, notre travail ouvre un espace de conception pour des stratégies d'inférence Monte Carlo hautement parallélisées qui surpassent l'échantillonnage standard best-of-N, ne nécessitent aucun ajustement fin et peuvent être implémentées automatiquement par les LMs existants.

Décrire tout dans une vidéo : Génération de légendes centrées sur les objets à granularité fine via un prompt multimodal spatiotemporel
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

Apr 7

ByYunlong Tang, Jing Bi, Chao Huang, Susan Liang, Daiki Shimada, Hang Hua, Yunzhong Xiao, Yizhi Song, Pinxin Liu, Mingqian Feng, Junjia Guo, Zhuo Liu, Luchuan Song, Ali Vosoughi, Jinxi He, Liu He, Zeliang Zhang, Jiebo Luo, Chenliang Xu

Nous présentons CAT-V (Caption AnyThing in Video), un cadre sans apprentissage pour la génération de descriptions vidéo centrées sur des objets à granularité fine, permettant des descriptions détaillées d'objets sélectionnés par l'utilisateur au fil du temps. CAT-V intègre trois composants clés : un Segmenter basé sur SAMURAI pour une segmentation précise des objets à travers les images, un Analyseur Temporel alimenté par TRACE-Uni pour la détection précise des limites d'événements et l'analyse temporelle, et un Générateur de Légendes utilisant InternVL-2.5 pour produire des descriptions détaillées centrées sur les objets. Grâce à des invites visuelles spatiotemporelles et un raisonnement en chaîne de pensée, notre cadre génère des descriptions détaillées et temporellement conscientes des attributs, actions, états, interactions et contextes environnementaux des objets, sans nécessiter de données d'apprentissage supplémentaires. CAT-V prend en charge des interactions utilisateur flexibles via diverses invites visuelles (points, boîtes englobantes et régions irrégulières) et maintient une sensibilité temporelle en suivant les états et interactions des objets à travers différents segments temporels. Notre approche répond aux limites des méthodes existantes de légendage vidéo, qui produisent soit des descriptions trop abstraites, soit manquent de précision au niveau des objets, en permettant des descriptions spécifiques et à granularité fine tout en conservant la cohérence temporelle et la précision spatiale. Le dépôt GitHub de ce projet est disponible à l'adresse suivante : https://github.com/yunlong10/CAT-V.

VideoChat-R1 : Amélioration de la perception spatio-temporelle via un réglage fin par renforcement
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

Apr 9

ByXinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang

Les récents progrès en apprentissage par renforcement ont considérablement amélioré les capacités de raisonnement des modèles de langage multimodaux de grande taille (MLLMs). Bien que des approches telles que l'Optimisation de Politique Relative par Groupe (GRPO) et les mécanismes de récompense basés sur des règles montrent des résultats prometteurs dans les domaines du texte et de l'image, leur application à la compréhension vidéo reste limitée. Cet article présente une exploration systématique du Fine-Tuning par Renforcement (RFT) avec GRPO pour les MLLMs vidéo, visant à améliorer la perception spatio-temporelle tout en conservant les capacités générales. Nos expériences révèlent que le RFT est très efficace en termes de données pour des améliorations spécifiques à une tâche. Grâce au RFT multi-tâches sur des objectifs de perception spatio-temporelle avec un nombre limité d'échantillons, nous développons VideoChat-R1, un MLLM vidéo puissant qui atteint des performances de pointe dans les tâches de perception spatio-temporelle sans sacrifier la capacité de dialogue, tout en démontrant des capacités émergentes de raisonnement spatio-temporel. Comparé à Qwen2.5-VL-7B, VideoChat-R1 améliore les performances de plusieurs ordres de grandeur dans des tâches comme l'ancrage temporel (+31.8) et le suivi d'objets (+31.2). De plus, il améliore significativement les résultats sur des benchmarks généraux de questions-réponses tels que VideoMME (+0.9), MVBench (+1.0) et Perception Test (+0.9). Nos résultats soulignent le potentiel du RFT pour l'amélioration des tâches spécialisées des MLLMs vidéo. Nous espérons que notre travail offre des perspectives précieuses pour les futures recherches en apprentissage par renforcement sur les MLLMs vidéo.

WildGS-SLAM : SLAM par projection gaussienne monoculaire dans des environnements dynamiques
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Apr 4

ByJianhao Zheng, Zihan Zhu, Valentin Bieri, Marc Pollefeys, Songyou Peng, Iro Armeni

Nous présentons WildGS-SLAM, un système monocular RGB SLAM robuste et efficace conçu pour gérer les environnements dynamiques en exploitant une cartographie géométrique prenant en compte l'incertitude. Contrairement aux systèmes SLAM traditionnels, qui supposent des scènes statiques, notre approche intègre des informations de profondeur et d'incertitude pour améliorer les performances de suivi, de cartographie et de rendu en présence d'objets mobiles. Nous introduisons une carte d'incertitude, prédite par un perceptron multicouche peu profond et des caractéristiques DINOv2, pour guider l'élimination des objets dynamiques lors du suivi et de la cartographie. Cette carte d'incertitude améliore l'ajustement dense de faisceaux et l'optimisation de la carte gaussienne, augmentant ainsi la précision de la reconstruction. Notre système est évalué sur plusieurs ensembles de données et démontre une synthèse de vues sans artefacts. Les résultats mettent en évidence la performance supérieure de WildGS-SLAM dans les environnements dynamiques par rapport aux méthodes de pointe.

DiTaiListener : Génération contrôlée de vidéos haute fidélité d'auditeurs avec des modèles de diffusion
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

Apr 5

ByMaksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani

La génération de mouvements d'écoute naturalistes et nuancés pour des interactions prolongées reste un problème non résolu. Les méthodes existantes reposent souvent sur des codes de mouvement de faible dimension pour la génération de comportements faciaux, suivis d'un rendu photoréaliste, ce qui limite à la fois la fidélité visuelle et la richesse expressive. Pour relever ces défis, nous présentons DiTaiListener, alimenté par un modèle de diffusion vidéo avec des conditions multimodales. Notre approche génère d'abord de courts segments de réponses d'écoute conditionnées par la parole et les mouvements faciaux de l'interlocuteur avec DiTaiListener-Gen. Elle affine ensuite les images de transition via DiTaiListener-Edit pour une transition fluide. Plus précisément, DiTaiListener-Gen adapte un Transformer de Diffusion (DiT) pour la génération de portraits de tête d'écouteur en introduisant un Adaptateur Multimodal Temporel Causal (CTM-Adapter) pour traiter les indices auditifs et visuels de l'interlocuteur. CTM-Adapter intègre les entrées de l'interlocuteur de manière causale dans le processus de génération vidéo pour garantir des réponses d'écoute temporellement cohérentes. Pour la génération de vidéos longues, nous introduisons DiTaiListener-Edit, un modèle de diffusion vidéo-à-vidéo de raffinement de transition. Ce modèle fusionne les segments vidéo en des vidéos fluides et continues, assurant la cohérence temporelle des expressions faciales et la qualité d'image lors de la fusion des courts segments vidéo produits par DiTaiListener-Gen. Quantitativement, DiTaiListener atteint des performances de pointe sur des ensembles de données de référence à la fois en termes de photoréalisme (+73,8 % en FID sur RealTalk) et de représentation des mouvements (+6,1 % en métrique FD sur VICO). Les études utilisateurs confirment la performance supérieure de DiTaiListener, le modèle étant clairement préféré en termes de retour, de diversité et de fluidité, surpassant les concurrents de manière significative.

Modélisation de scènes masquées : Réduire l'écart entre l'apprentissage supervisé et auto-supervisé dans la compréhension de scènes 3D
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding

Apr 9

ByPedro Hermosilla, Christian Stippel, Leon Sick

L'apprentissage auto-supervisé a révolutionné la vision par ordinateur 2D en permettant à des modèles entraînés sur de vastes ensembles de données non annotées de fournir des caractéristiques polyvalentes prêtes à l'emploi, performantes à un niveau comparable à celui des modèles entraînés avec des annotations. Cependant, dans la compréhension de scènes 3D, les méthodes auto-supervisées sont généralement utilisées uniquement comme étape d'initialisation des poids pour un ajustement spécifique à une tâche, limitant ainsi leur utilité pour l'extraction de caractéristiques à usage général. Cet article pallie cette lacune en proposant un protocole d'évaluation robuste spécialement conçu pour évaluer la qualité des caractéristiques auto-supervisées dans la compréhension de scènes 3D. Notre protocole utilise un échantillonnage de caractéristiques multi-résolution de modèles hiérarchiques pour créer des représentations riches au niveau des points, capturant ainsi les capacités sémantiques du modèle et, par conséquent, adaptées à une évaluation par sondage linéaire et méthodes des plus proches voisins. De plus, nous introduisons le premier modèle auto-supervisé qui performe de manière similaire aux modèles supervisés lorsque seules des caractéristiques prêtes à l'emploi sont utilisées dans un cadre de sondage linéaire. En particulier, notre modèle est entraîné nativement en 3D avec une nouvelle approche auto-supervisée basée sur un objectif de Modélisation de Scène Masquée (Masked Scene Modeling), qui reconstruit les caractéristiques profondes de patches masqués de manière ascendante et est spécifiquement adaptée aux modèles hiérarchiques 3D. Nos expériences démontrent non seulement que notre méthode atteint des performances compétitives par rapport aux modèles supervisés, mais qu'elle surpasse également les approches auto-supervisées existantes de manière significative. Le modèle et le code d'entraînement sont disponibles sur notre dépôt Github (https://github.com/phermosilla/msm).

RobustDexGrasp : Prise en main dextre robuste d'objets généraux à partir d'une perception monoculaire
RobustDexGrasp: Robust Dexterous Grasping of General Objects from Single-view Perception

Apr 7

ByHui Zhang, Zijian Wu, Linyi Huang, Sammy Christen, Jie Song

La préhension robuste de divers objets à partir d'une perception monoculaire est fondamentale pour les robots habiles. Les travaux précédents reposent souvent sur des objets entièrement observables, des démonstrations expertes ou des poses de préhension statiques, ce qui limite leur capacité de généralisation et leur adaptabilité aux perturbations externes. Dans cet article, nous présentons un cadre basé sur l'apprentissage par renforcement qui permet une préhension dynamique habile de zéro-shot sur une large gamme d'objets non vus à partir d'une perception monoculaire, tout en effectuant des mouvements adaptatifs face aux perturbations externes. Nous utilisons une représentation d'objet centrée sur la main pour l'extraction de caractéristiques de forme, mettant l'accent sur les formes locales pertinentes pour l'interaction, améliorant ainsi la robustesse face à la variance et à l'incertitude des formes. Pour permettre une adaptation efficace de la main aux perturbations avec des observations limitées, nous proposons une stratégie d'apprentissage mixte par curriculum, qui utilise d'abord l'apprentissage par imitation pour distiller une politique entraînée avec un retour visuo-tactile en temps réel privilégié, puis transfère progressivement à l'apprentissage par renforcement pour apprendre des mouvements adaptatifs sous des perturbations causées par des bruits d'observation et une randomisation dynamique. Nos expériences démontrent une forte généralisation dans la préhension d'objets non vus avec des poses aléatoires, atteignant des taux de réussite de 97,0 % sur 247 786 objets simulés et 94,6 % sur 512 objets réels. Nous montrons également la robustesse de notre méthode face à diverses perturbations, y compris le mouvement non observé des objets et les forces externes, à travers des évaluations quantitatives et qualitatives. Page du projet : https://zdchan.github.io/Robust_DexGrasp/

Avons-nous terminé avec l'apprentissage centré sur les objets ?
Are We Done with Object-Centric Learning?

Apr 9

ByAlexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh

L'apprentissage centré sur les objets (Object-Centric Learning, OCL) vise à apprendre des représentations qui encodent uniquement un objet, isolé des autres objets ou des indices contextuels dans une scène. Cette approche soutient divers objectifs, notamment la généralisation hors distribution (out-of-distribution, OOD), la composition efficace avec peu d'échantillons, et la modélisation d'environnements structurés. La plupart des recherches se sont concentrées sur le développement de mécanismes non supervisés qui séparent les objets en emplacements discrets dans l'espace de représentation, évalués par la découverte d'objets non supervisée. Cependant, avec les récents modèles de segmentation efficaces en termes d'échantillons, nous pouvons séparer les objets dans l'espace des pixels et les encoder indépendamment. Cela permet d'obtenir des performances remarquables en zéro-shot sur des benchmarks de découverte d'objets OOD, est évolutif pour les modèles de base, et peut gérer un nombre variable d'emplacements sans configuration supplémentaire. Ainsi, l'objectif des méthodes OCL d'obtenir des représentations centrées sur les objets a été largement atteint. Malgré ces progrès, une question clé demeure : Comment la capacité à séparer les objets dans une scène contribue-t-elle aux objectifs plus larges de l'OCL, tels que la généralisation OOD ? Nous abordons cette question en examinant le défi de la généralisation OOD causé par les indices contextuels trompeurs à travers le prisme de l'OCL. Nous proposons une nouvelle sonde sans apprentissage appelée Classification Centrée sur les Objets avec Masques Appliqués (Object-Centric Classification with Applied Masks, OCCAM), démontrant que l'encodage basé sur la segmentation des objets individuels surpasse significativement les méthodes OCL basées sur les emplacements. Cependant, des défis subsistent dans les applications réelles. Nous fournissons une boîte à outils pour la communauté OCL afin d'utiliser des représentations centrées sur les objets évolutives, et nous nous concentrons sur les applications pratiques et les questions fondamentales, telles que la compréhension de la perception des objets dans la cognition humaine. Notre code est disponible {ici}https://github.com/AlexanderRubinstein/OCCAM.

Pré-entraînement de modèles de langage pour la découverte de changements linguistiques diachroniques
Pretraining Language Models for Diachronic Linguistic Change Discovery

Apr 7

ByElisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner

Les grands modèles de langage (LLM) ont démontré leur potentiel en tant qu'outils pour la découverte scientifique. Cela a suscité un intérêt croissant pour leur utilisation dans des disciplines humanistes, telles que la linguistique historique et les études littéraires. Ces domaines construisent souvent leurs arguments sur la base de délimitations comme le genre, ou plus rigide, la période temporelle. Bien que des efforts aient été faits pour restreindre l'inférence à des domaines spécifiques via le fine-tuning ou l'édition de modèles, nous postulons que la seule garantie véritable est le pré-entraînement restreint à un domaine - généralement une proposition coûteuse en données et en calcul. Nous montrons que des techniques de pré-entraînement efficaces peuvent produire des modèles utiles sur des corpus trop vastes pour une inspection manuelle facile mais trop petits pour les approches "typiques" des LLM. Nous utilisons un pipeline novateur d'attribution de dates afin d'obtenir un ensemble de données segmenté temporellement en cinq tranches de 10 millions de mots. Nous entraînons deux batteries de cinq modèles correspondants sur ces segments de corpus, un pré-entraînement efficace et un fine-tuning efficace des paramètres de Llama3-8B. Nous constatons que les modèles pré-entraînés sont plus rapides à entraîner que les modèles de référence fine-tunés et qu'ils respectent mieux les divisions historiques de notre corpus. En privilégiant la vitesse et la précision plutôt qu'une exhaustivité a-historique, cela permet d'explorer de nouvelles approches pour la découverte et le test d'hypothèses dans nos domaines cibles. En prenant la linguistique diachronique comme banc d'essai, nous montrons que notre méthode permet de détecter un ensemble diversifié de phénomènes, y compris le changement lexical en masse, le changement non lexical (grammatical et morphologique), ainsi que l'introduction/l'obsolescence des sens des mots. Nous fournissons un pipeline prêt à l'emploi qui permet d'étendre notre approche à d'autres domaines cibles avec seulement une adaptation minimale.

RuOpinionNE-2024 : Extraction de tuples d'opinion à partir de textes d'actualités russes
RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts

Apr 9

ByNatalia Loukachevitch, Natalia Tkachenko, Anna Lapanitsyna, Mikhail Tikhomirov, Nicolay Rusnachenko

Dans cet article, nous présentons la tâche partagée Dialogue Evaluation sur l'extraction d'opinions structurées à partir de textes d'actualités russes. L'objectif du concours est d'extraire des tuples d'opinion pour une phrase donnée ; ces tuples sont composés d'un détenteur de sentiment, de sa cible, d'une expression et du sentiment du détenteur envers la cible. Au total, la tâche a reçu plus de 100 soumissions. Les participants ont principalement expérimenté avec des modèles de langage de grande taille dans des formats zero-shot, few-shot et de fine-tuning. Le meilleur résultat sur l'ensemble de test a été obtenu avec le fine-tuning d'un modèle de langage de grande taille. Nous avons également comparé 30 prompts et 11 modèles de langage open source avec 3 à 32 milliards de paramètres dans les configurations 1-shot et 10-shot, et avons identifié les meilleurs modèles et prompts.

Génération rapide et contrôlée à partir de modèles de langage avec échantillonnage de rejet pondéré adaptatif
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling

Apr 7

ByBenjamin Lipkin, Benjamin LeBrun, Jacob Hoover Vigly, João Loula, David R. MacIver, Li Du, Jason Eisner, Ryan Cotterell, Vikash Mansinghka, Timothy J. O'Donnell, Alexander K. Lew, Tim Vieira

L'approche dominante pour générer des modèles de langage soumis à certaines contraintes est le décodage localement contraint (LCD), qui consiste à échantillonner des tokens de manière incrémentale à chaque étape temporelle de sorte que la contrainte ne soit jamais violée. Typiquement, cela est réalisé par masquage des tokens : en parcourant le vocabulaire et en excluant les tokens non conformes. Cette approche présente deux problèmes majeurs. (i) Évaluer la contrainte sur chaque token peut être prohibitivement coûteux — les vocabulaires des modèles de langage dépassent souvent 100 000 tokens. (ii) Le LCD peut fausser la distribution globale sur les chaînes de caractères, en échantillonnant des tokens uniquement sur la base d'informations locales, même s'ils mènent à des impasses. Ce travail introduit un nouvel algorithme qui résout ces deux problèmes. Premièrement, pour éviter d'évaluer une contrainte sur l'intégralité du vocabulaire à chaque étape de génération, nous proposons un algorithme d'échantillonnage par rejet adaptatif qui nécessite généralement des ordres de grandeur moins d'évaluations de contraintes. Deuxièmement, nous montrons comment cet algorithme peut être étendu pour produire des estimations à faible variance et non biaisées des poids d'importance à un coût supplémentaire très faible — des estimations qui peuvent être utilisées de manière fiable dans des algorithmes de Monte Carlo séquentiels précédemment proposés pour corriger le comportement myope de l'application locale des contraintes. Grâce à une évaluation empirique approfondie dans les domaines de la génération de texte vers SQL, de la synthèse moléculaire, de l'inférence d'objectifs, de la correspondance de motifs et du JSON, nous montrons que notre approche est supérieure aux méthodes de référence actuelles, supportant une classe plus large de contraintes et améliorant à la fois le temps d'exécution et les performances. Des analyses théoriques et empiriques supplémentaires montrent que l'efficacité en temps d'exécution de notre méthode est due à son utilisation dynamique des calculs, évoluant avec la divergence entre le modèle de langage non contraint et contraint, et par conséquent, les gains en temps d'exécution sont plus importants pour les meilleurs modèles.

Articles de Recherche IA Quotidiens

Articles de recherche IA sélectionnés quotidiennement avec traductions

OLMoTrace : Retracer les sorties des modèles de langage jusqu'aux billions de tokens d'entraînement
OLMoTrace: Tracing Language Model Outputs Back to Trillions of Training Tokens

Apr 9

DDT : Transformateur à Diffusion Découplée
DDT: Decoupled Diffusion Transformer

Apr 8

ByShuai Wang, Zhi Tian, Weilin Huang, Limin Wang

L'absence de prémisses exacerbe la surréflexion : Les modèles de raisonnement perdent-ils leurs compétences en pensée critique ?
Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Apr 9

ByChenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou

FantasyTalking : Génération réaliste de portraits parlants via une synthèse cohérente des mouvements
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis

Apr 7

ByMengchao Wang, Qiang Wang, Fan Jiang, Yaqi Fan, Yunpeng Zhang, Yonggang Qi, Kun Zhao, Mu Xu

Un cadre agentique unifié pour l'évaluation de la génération conditionnelle d'images
A Unified Agentic Framework for Evaluating Conditional Image Generation

Apr 9

ByJifang Wang, Xue Yang, Longyue Wang, Zhenran Xu, Yiyu Wang, Yaowei Wang, Weihua Luo, Kaifu Zhang, Baotian Hu, Min Zhang

GenDoP : Génération auto-régressive de trajectoires de caméra en tant que directeur de la photographie
GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

Apr 9

ByMengchen Zhang, Tong Wu, Jing Tan, Ziwei Liu, Gordon Wetzstein, Dahua Lin

Un regard lucide sur les progrès dans le raisonnement des modèles de langage : écueils et voies vers la reproductibilité
A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility

Apr 9

ByAndreas Hochlehnert, Hardik Bhatnagar, Vishaal Udandarao, Samuel Albanie, Ameya Prabhu, Matthias Bethge

OmniCaptioner : Un seul générateur de légendes pour tous les régner
OmniCaptioner: One Captioner to Rule Them All

Apr 9

Modèles de Langage à Auto-Pilotage
Self-Steering Language Models

Apr 9

ByGabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas

Décrire tout dans une vidéo : Génération de légendes centrées sur les objets à granularité fine via un prompt multimodal spatiotemporel
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

Apr 7

VideoChat-R1 : Amélioration de la perception spatio-temporelle via un réglage fin par renforcement
VideoChat-R1: Enhancing Spatio-Temporal Perception via Reinforcement Fine-Tuning

Apr 9

ByXinhao Li, Ziang Yan, Desen Meng, Lu Dong, Xiangyu Zeng, Yinan He, Yali Wang, Yu Qiao, Yi Wang, Limin Wang

WildGS-SLAM : SLAM par projection gaussienne monoculaire dans des environnements dynamiques
WildGS-SLAM: Monocular Gaussian Splatting SLAM in Dynamic Environments

Apr 4

ByJianhao Zheng, Zihan Zhu, Valentin Bieri, Marc Pollefeys, Songyou Peng, Iro Armeni

DiTaiListener : Génération contrôlée de vidéos haute fidélité d'auditeurs avec des modèles de diffusion
DiTaiListener: Controllable High Fidelity Listener Video Generation with Diffusion

Apr 5

ByMaksim Siniukov, Di Chang, Minh Tran, Hongkun Gong, Ashutosh Chaubey, Mohammad Soleymani

Modélisation de scènes masquées : Réduire l'écart entre l'apprentissage supervisé et auto-supervisé dans la compréhension de scènes 3D
Masked Scene Modeling: Narrowing the Gap Between Supervised and Self-Supervised Learning in 3D Scene Understanding

Apr 9

ByPedro Hermosilla, Christian Stippel, Leon Sick

RobustDexGrasp : Prise en main dextre robuste d'objets généraux à partir d'une perception monoculaire
RobustDexGrasp: Robust Dexterous Grasping of General Objects from Single-view Perception

Apr 7

ByHui Zhang, Zijian Wu, Linyi Huang, Sammy Christen, Jie Song

Avons-nous terminé avec l'apprentissage centré sur les objets ?
Are We Done with Object-Centric Learning?

Apr 9

ByAlexander Rubinstein, Ameya Prabhu, Matthias Bethge, Seong Joon Oh

Pré-entraînement de modèles de langage pour la découverte de changements linguistiques diachroniques
Pretraining Language Models for Diachronic Linguistic Change Discovery

Apr 7

ByElisabeth Fittschen, Sabrina Li, Tom Lippincott, Leshem Choshen, Craig Messner

RuOpinionNE-2024 : Extraction de tuples d'opinion à partir de textes d'actualités russes
RuOpinionNE-2024: Extraction of Opinion Tuples from Russian News Texts

Apr 9

ByNatalia Loukachevitch, Natalia Tkachenko, Anna Lapanitsyna, Mikhail Tikhomirov, Nicolay Rusnachenko

Génération rapide et contrôlée à partir de modèles de langage avec échantillonnage de rejet pondéré adaptatif
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling

Apr 7

ByBenjamin Lipkin, Benjamin LeBrun, Jacob Hoover Vigly, João Loula, David R. MacIver, Li Du, Jason Eisner, Ryan Cotterell, Vikash Mansinghka, Timothy J. O'Donnell, Alexander K. Lew, Tim Vieira