Articles de recherche en IA sélectionnés quotidiennement avec traductions
La modélisation autorégressive à long contexte a considérablement fait progresser la génération de langage, mais la génération vidéo peine encore à exploiter pleinement les contextes temporels étendus. Pour étudier la modélisation vidéo à long contexte, nous introduisons Frame AutoRegressive (FAR), une base solide pour la modélisation autorégressive vidéo. Tout comme les modèles de langage apprennent les dépendances causales entre les tokens (c'est-à-dire Token AR), FAR modélise les dépendances causales temporelles entre des images continues, atteignant une meilleure convergence que Token AR et les transformateurs de diffusion vidéo. En nous appuyant sur FAR, nous observons que la modélisation visuelle à long contexte rencontre des défis dus à la redondance visuelle. La RoPE existante manque d'un décroissement temporel efficace pour les contextes distants et ne parvient pas à extrapoler correctement aux longues séquences vidéo. De plus, l'entraînement sur de longues vidéos est coûteux en calcul, car les tokens visuels augmentent beaucoup plus rapidement que les tokens de langage. Pour résoudre ces problèmes, nous proposons d'équilibrer la localité et la dépendance à longue portée. Nous introduisons FlexRoPE, une technique en temps de test qui ajoute un décroissement temporel flexible à RoPE, permettant l'extrapolation à des contextes visuels 16 fois plus longs. Par ailleurs, nous proposons une modélisation de contexte à court et long terme, où une fenêtre de contexte à court terme en haute résolution assure une cohérence temporelle fine, tandis qu'une fenêtre de contexte à long terme illimitée encode des informations à longue portée en utilisant moins de tokens. Avec cette approche, nous pouvons entraîner sur de longues séquences vidéo avec une longueur de contexte de tokens gérable. Nous démontrons que FAR atteint des performances de pointe à la fois dans la génération de vidéos courtes et longues, offrant une base simple mais efficace pour la modélisation autorégressive vidéo.
La perception haute résolution des détails visuels est cruciale pour les tâches quotidiennes. Cependant, le pré-entraînement visuel actuel reste limité à des résolutions basses (par exemple, 378 x 378 pixels) en raison du coût quadratique du traitement d'images plus grandes. Nous introduisons PS3, qui étend le pré-entraînement visuel de type CLIP à une résolution 4K avec un coût quasi constant. Au lieu d'un apprentissage contrastif sur la représentation globale de l'image, PS3 est pré-entraîné en traitant sélectivement des régions locales et en les contrastant avec des descriptions détaillées locales, permettant ainsi un apprentissage de représentation haute résolution avec une réduction significative de la surcharge computationnelle. Le modèle pré-entraîné PS3 est capable à la fois d'encoder l'image globale en basse résolution et de traiter sélectivement des régions locales en haute résolution en fonction de leur saillance ou de leur pertinence par rapport à une invite textuelle. Lorsque PS3 est appliqué à un modèle de langage multimodal (MLLM), le modèle résultant, nommé VILA-HD, améliore significativement la perception visuelle haute résolution par rapport aux modèles de référence sans pré-entraînement visuel haute résolution, tels que AnyRes et S^2, tout en utilisant jusqu'à 4,3 fois moins de tokens. PS3 débloque également des propriétés d'échelle attrayantes pour VILA-HD, notamment la possibilité d'augmenter la résolution sans coût supplémentaire et d'augmenter le calcul au moment du test pour de meilleures performances. Par rapport à l'état de l'art, VILA-HD surpasse les MLLM précédents tels que NVILA et Qwen2-VL sur plusieurs benchmarks et offre une meilleure efficacité que les dernières approches d'élagage de tokens. Enfin, nous constatons que les benchmarks actuels ne nécessitent pas une perception en 4K, ce qui nous motive à proposer 4KPro, un nouveau benchmark de questions-réponses sur images en 4K, sur lequel VILA-HD surpasse tous les MLLM précédents, y compris une amélioration de 14,5 % par rapport à GPT-4o, et une amélioration de 3,2 % ainsi qu'une accélération de 2,96 fois par rapport à Qwen2-VL.
Nous proposons une approche de mise à l'échelle au moment de l'inférence pour les modèles de flux pré-entraînés. Récemment, la mise à l'échelle au moment de l'inférence a suscité un intérêt considérable dans les LLM et les modèles de diffusion, améliorant la qualité des échantillons ou alignant mieux les sorties avec les préférences des utilisateurs en exploitant des calculs supplémentaires. Pour les modèles de diffusion, l'échantillonnage de particules a permis une mise à l'échelle plus efficace grâce à la stochasticité des étapes intermédiaires de débruitage. En revanche, bien que les modèles de flux aient gagné en popularité comme alternative aux modèles de diffusion—offrant une génération plus rapide et des sorties de haute qualité dans les modèles génératifs d'images et de vidéos de pointe—les méthodes de mise à l'échelle au moment de l'inférence utilisées pour les modèles de diffusion ne peuvent pas être directement appliquées en raison de leur processus génératif déterministe. Pour permettre une mise à l'échelle efficace au moment de l'inférence pour les modèles de flux, nous proposons trois idées clés : 1) la génération basée sur les EDS, permettant l'échantillonnage de particules dans les modèles de flux, 2) la conversion d'interpolants, élargissant l'espace de recherche et améliorant la diversité des échantillons, et 3) le Forçage de Budget de Report (RBF), une allocation adaptative des ressources de calcul à travers les pas de temps pour maximiser l'utilisation du budget. Nos expériences montrent que la génération basée sur les EDS, en particulier la génération basée sur les interpolants préservant la variance (VP), améliore les performances des méthodes d'échantillonnage de particules pour la mise à l'échelle au moment de l'inférence dans les modèles de flux. De plus, nous démontrons que le RBF avec EDS-VP obtient les meilleures performances, surpassant toutes les approches précédentes de mise à l'échelle au moment de l'inférence.
L'hallucination des grands modèles multimodaux (LMMs), qui fournissent des réponses semblant correctes mais en réalité erronées, limite leur fiabilité et leur applicabilité. Cet article vise à étudier le problème d'hallucination des LMMs dans la modalité vidéo, qui est dynamique et plus complexe que les modalités statiques comme les images et le texte. Motivés par cette problématique, nous présentons d'abord un benchmark complet nommé HAVEN pour évaluer les hallucinations des LMMs dans les tâches de compréhension vidéo. Il est construit autour de trois dimensions, à savoir les causes d'hallucination, les aspects d'hallucination et les formats de questions, aboutissant à 6 000 questions. Ensuite, nous étudions quantitativement 7 facteurs influents sur les hallucinations, tels que la durée des vidéos, la taille des modèles et le raisonnement des modèles, via des expériences menées sur 16 LMMs avec ce benchmark. De plus, inspirés par les modèles de pensée récents comme OpenAI o1, nous proposons un modèle de pensée vidéo pour atténuer les hallucinations des LMMs via un réglage fin supervisé du raisonnement (SRFT) et une optimisation directe des préférences (TDPO) — où le SRFT améliore les capacités de raisonnement tandis que le TDPO réduit les hallucinations dans le processus de pensée. Des expériences et analyses approfondies démontrent l'efficacité de cette approche. De manière remarquable, elle améliore la précision de référence de 7,65 % dans l'évaluation des hallucinations et réduit le score de biais de 4,5 %. Le code et les données sont publics à l'adresse https://github.com/Hongcheng-Gao/HAVEN.
Les modèles de fondation visuelle pré-entraînés (VFMs) fournissent des représentations visuelles robustes pour un large éventail d'applications. Dans cet article, nous procédons à un pré-entraînement continu des VFMs dominants de manière multimodale, afin qu'ils puissent traiter sans effort des entrées visuelles de tailles variées et produire des représentations visuelles plus alignées avec les représentations linguistiques, indépendamment de leur processus de pré-entraînement initial. À cette fin, nous introduisons CoMP, un pipeline de pré-entraînement multimodal soigneusement conçu. CoMP utilise un Positionnement Rotatif Continu pour supporter un pré-entraînement continu à la résolution native, et une Perte d'Alignement entre les caractéristiques visuelles et textuelles via des prototypes linguistiques pour aligner les représentations multimodales. Grâce à un entraînement en trois étapes, nos VFMs atteignent des améliorations remarquables non seulement dans la compréhension multimodale, mais aussi dans d'autres tâches en aval telles que la classification et la segmentation. De manière notable, CoMP-SigLIP obtient des scores de 66,7 sur ChartQA et 75,9 sur DocVQA avec un LLM de 0,5 milliard, tout en maintenant une précision de 87,4 % sur ImageNet-1K et un mIoU de 49,5 sur ADE20K sous évaluation par segments gelés.
Les récentes avancées dans les modèles de langage à grande échelle (LLMs), tels qu'OpenAI-o1 et DeepSeek-R1, ont démontré l'efficacité de la mise à l'échelle au moment du test, où des processus de raisonnement étendus améliorent considérablement les performances du modèle. Malgré cela, les modèles actuels sont limités par des contraintes dans la gestion de textes longs et l'efficacité de l'entraînement par apprentissage par renforcement (RL). Pour résoudre ces problèmes, nous proposons une approche simple mais efficace de mise à l'échelle au moment du test : la Pensée Multi-tours. Cette méthode affine itérativement le raisonnement du modèle en exploitant les réponses précédentes comme incitations pour les tours suivants. Des expériences approfondies sur plusieurs modèles, y compris QwQ-32B et DeepSeek-R1, montrent systématiquement des améliorations de performance sur divers benchmarks tels que AIME 2024, MATH-500, GPQA-diamond et LiveCodeBench. Par exemple, la précision de QwQ-32B est passée de 80,3 % (Tour 1) à 82,1 % (Tour 2) sur le jeu de données AIME 2024, tandis que DeepSeek-R1 a montré une augmentation similaire de 79,7 % à 82,0 %. Ces résultats confirment que la Pensée Multi-tours est une approche largement applicable et simple pour obtenir des améliorations stables des performances du modèle, soulignant son potentiel pour les développements futurs des techniques de mise à l'échelle au moment du test. L'incitation clé : {Question originale} La réponse précédente de l'assistant est : <réponse> {réponse du dernier tour} </réponse>, et veuillez répondre à nouveau.
Avec l'avancée rapide des technologies de génération de contenu par intelligence artificielle (AIGC), les images synthétiques sont devenues de plus en plus omniprésentes dans la vie quotidienne, posant de nouveaux défis en matière d'évaluation et de détection de l'authenticité. Bien que les méthodes existantes soient efficaces pour évaluer l'authenticité des images et localiser les falsifications, elles manquent souvent d'interprétabilité humaine et ne répondent pas pleinement à la complexité croissante des données synthétiques. Pour relever ces défis, nous présentons FakeVLM, un modèle multimodal de grande envergure spécialement conçu pour les tâches de détection d'images synthétiques générales et de DeepFakes. FakeVLM excelle non seulement dans la distinction entre images réelles et fausses, mais fournit également des explications claires en langage naturel sur les artefacts d'image, améliorant ainsi l'interprétabilité. De plus, nous introduisons FakeClue, un ensemble de données complet contenant plus de 100 000 images réparties en sept catégories, annotées avec des indices d'artefacts granulaires en langage naturel. FakeVLM démontre des performances comparables à celles des modèles experts tout en éliminant le besoin de classificateurs supplémentaires, en faisant une solution robuste pour la détection de données synthétiques. Des évaluations approfondies sur plusieurs ensembles de données confirment la supériorité de FakeVLM dans les tâches de classification d'authenticité et d'explication des artefacts, établissant ainsi un nouveau référentiel pour la détection d'images synthétiques. Le jeu de données et le code seront disponibles à l'adresse suivante : https://github.com/opendatalab/FakeVLM.
Le Question-Réponse sur Documents (DocQA) est une tâche très courante. Les méthodes existantes utilisant des Modèles de Langage à Grande Échelle (LLMs) ou des Modèles de Langage et Vision à Grande Échelle (LVLMs) ainsi que la Génération Augmentée par Récupération (RAG) privilégient souvent l'information provenant d'une seule modalité, échouant à intégrer efficacement les indices textuels et visuels. Ces approches peinent à effectuer un raisonnement multi-modal complexe, limitant ainsi leurs performances sur des documents du monde réel. Nous présentons MDocAgent (Un Cadre Multi-Modal et Multi-Agent pour la Compréhension de Documents), un nouveau cadre RAG et multi-agent qui exploite à la fois le texte et l'image. Notre système emploie cinq agents spécialisés : un agent général, un agent critique, un agent texte, un agent image et un agent de synthèse. Ces agents s'engagent dans une récupération de contexte multi-modale, combinant leurs insights individuels pour parvenir à une compréhension plus complète du contenu du document. Cette approche collaborative permet au système de synthétiser l'information provenant à la fois des composants textuels et visuels, conduisant à une amélioration de la précision dans les réponses aux questions. Les expériences préliminaires sur cinq benchmarks comme MMLongBench et LongDocURL démontrent l'efficacité de notre MDocAgent, avec une amélioration moyenne de 12,1 % par rapport aux méthodes actuelles de pointe. Ce travail contribue au développement de systèmes DocQA plus robustes et complets, capables de gérer les complexités des documents du monde réel contenant des informations textuelles et visuelles riches. Nos données et code sont disponibles à l'adresse https://github.com/aiming-lab/MDocAgent.
Les grands modèles de langage (LLM) ont démontré des capacités remarquables en matière de raisonnement, comme en témoignent les succès d'OpenAI-o1 et de DeepSeek-R1. Cependant, l'intégration du raisonnement avec des processus de recherche externes reste un défi, en particulier pour les questions complexes à sauts multiples nécessitant plusieurs étapes de récupération. Nous proposons ReSearch, un nouveau cadre qui entraîne les LLM à Raisonner avec la Recherche via l'apprentissage par renforcement sans utiliser de données supervisées sur les étapes de raisonnement. Notre approche traite les opérations de recherche comme des composants intégrés de la chaîne de raisonnement, où le moment et la manière d'effectuer les recherches sont guidés par une réflexion textuelle, et les résultats de recherche influencent ensuite le raisonnement ultérieur. Nous entraînons ReSearch sur les modèles Qwen2.5-7B(-Instruct) et Qwen2.5-32B(-Instruct) et menons des expériences approfondies. Bien qu'entraînés sur un seul ensemble de données, nos modèles démontrent une forte généralisabilité sur divers benchmarks. L'analyse révèle que ReSearch suscite naturellement des capacités de raisonnement avancées telles que la réflexion et l'auto-correction pendant le processus d'apprentissage par renforcement.
La recherche d'images composées (Composed Image Retrieval, CIR) est une tâche complexe visant à retrouver des images à partir d'une requête multimodale. Les données d'entraînement typiques se composent de triplets contenant une image de référence, une description textuelle des modifications souhaitées et l'image cible, dont l'acquisition est coûteuse et chronophage. La rareté des jeux de données CIR a conduit à des approches zero-shot utilisant des triplets synthétiques ou exploitant des modèles vision-langage (VLMs) avec des paires image-légende extraites du web. Cependant, ces méthodes présentent des limitations significatives : les triplets synthétiques souffrent d'une échelle limitée, d'un manque de diversité et de textes de modification peu naturels, tandis que les paires image-légende entravent l'apprentissage conjoint des embeddings de la requête multimodale en raison de l'absence de données en triplets. De plus, les approches existantes peinent à gérer des textes de modification complexes et nuancés qui nécessitent une fusion et une compréhension sophistiquées des modalités visuelles et linguistiques. Nous présentons CoLLM, un cadre unifié qui résout efficacement ces limitations. Notre approche génère des triplets à la volée à partir de paires image-légende, permettant un entraînement supervisé sans annotation manuelle. Nous exploitons les grands modèles de langage (LLMs) pour générer des embeddings conjoints des images de référence et des textes de modification, facilitant une fusion multimodale plus profonde. Par ailleurs, nous introduisons Multi-Text CIR (MTCIR), un jeu de données à grande échelle comprenant 3,4 millions d'échantillons, et affinons les benchmarks CIR existants (CIRR et Fashion-IQ) pour améliorer la fiabilité de l'évaluation. Les résultats expérimentaux montrent que CoLLM atteint des performances de pointe sur plusieurs benchmarks et configurations CIR. MTCIR produit des résultats compétitifs, avec une amélioration des performances allant jusqu'à 15 %. Nos benchmarks affinés fournissent des métriques d'évaluation plus fiables pour les modèles CIR, contribuant ainsi à l'avancement de ce domaine important.
Dans cet article, nous proposons LSRNA, un nouveau cadre pour la génération d'images à haute résolution (dépassant 1K) en utilisant des modèles de diffusion en exploitant la super-résolution directement dans l'espace latent. Les modèles de diffusion existants éprouvent des difficultés à dépasser les résolutions pour lesquelles ils ont été entraînés, ce qui entraîne souvent des distorsions structurelles ou des répétitions de contenu. Les méthodes basées sur des références abordent ces problèmes en suréchantillonnant une référence à basse résolution pour guider la génération à plus haute résolution. Cependant, elles rencontrent des défis majeurs : le suréchantillonnage dans l'espace latent provoque souvent une déviation de la variété, ce qui dégrade la qualité de la sortie. D'autre part, le suréchantillonnage dans l'espace RGB tend à produire des sorties excessivement lissées. Pour surmonter ces limitations, LSRNA combine la Super-Résolution dans l'Espace Latent (LSR) pour l'alignement de la variété et l'Ajout de Bruit par Région (RNA) pour améliorer les détails à haute fréquence. Nos expériences approfondies démontrent que l'intégration de LSRNA surpasse les méthodes basées sur des références de pointe à travers diverses résolutions et métriques, tout en montrant le rôle crucial du suréchantillonnage dans l'espace latent pour préserver les détails et la netteté. Le code est disponible à l'adresse https://github.com/3587jjh/LSRNA.
La découverte et la collecte de connaissances sont des tâches intensives en intelligence qui nécessitent traditionnellement un effort humain important pour garantir des résultats de haute qualité. Des recherches récentes ont exploré des cadres multi-agents pour automatiser la génération d'articles de style Wikipédia en récupérant et en synthétisant des informations provenant d'Internet. Cependant, ces méthodes se concentrent principalement sur la génération de texte uniquement, négligeant l'importance du contenu multimodal pour améliorer l'informativité et l'engagement. Dans ce travail, nous présentons WikiAutoGen, un système novateur pour la génération automatisée d'articles de style Wikipédia multimodaux. Contrairement aux approches précédentes, WikiAutoGen récupère et intègre des images pertinentes aux côtés du texte, enrichissant ainsi la profondeur et l'attrait visuel du contenu généré. Pour améliorer davantage l'exactitude factuelle et l'exhaustivité, nous proposons un mécanisme d'auto-réflexion multi-perspectives, qui évalue de manière critique le contenu récupéré sous divers angles pour renforcer la fiabilité, l'étendue et la cohérence, entre autres. De plus, nous introduisons WikiSeek, un benchmark comprenant des articles Wikipédia avec des sujets associés à des représentations textuelles et basées sur des images, conçu pour évaluer la génération de connaissances multimodales sur des sujets plus complexes. Les résultats expérimentaux montrent que WikiAutoGen surpasse les méthodes précédentes de 8 % à 29 % sur notre benchmark WikiSeek, produisant des articles de style Wikipédia plus précis, cohérents et enrichis visuellement. Nous présentons certains de nos exemples générés sur https://wikiautogen.github.io/.
Les modèles génératifs de base actuels pour la vidéo se concentrent principalement sur les tâches de texte-à-vidéo, offrant un contrôle limité pour la création de contenu vidéo granulaire. Bien que les approches basées sur des adaptateurs (par exemple, ControlNet) permettent des contrôles supplémentaires avec un ajustement fin minimal, elles rencontrent des défis lors de l'intégration de multiples conditions, notamment : des conflits de branches entre des adaptateurs entraînés indépendamment, une redondance des paramètres entraînant une augmentation des coûts de calcul, et des performances sous-optimales par rapport à un ajustement fin complet. Pour relever ces défis, nous introduisons FullDiT, un modèle de base unifié pour la génération de vidéo qui intègre de manière transparente plusieurs conditions via des mécanismes d'attention complète unifiés. En fusionnant les conditions multi-tâches dans une représentation de séquence unifiée et en exploitant la capacité d'apprentissage à long contexte de l'auto-attention complète pour capturer la dynamique des conditions, FullDiT réduit la surcharge des paramètres, évite les conflits de conditions, et montre une scalabilité et une capacité émergente. Nous introduisons également FullBench pour l'évaluation de la génération de vidéo multi-tâches. Les expériences démontrent que FullDiT atteint des résultats de pointe, mettant en évidence l'efficacité de l'attention complète dans la génération de vidéo multi-tâches complexe.
La génération de vues 360 degrés de haute qualité de têtes humaines à partir d'images monoscopiques est essentielle pour permettre des applications de téléprésence immersive accessibles et une création de contenu personnalisé à grande échelle. Bien que les méthodes de pointe pour la génération complète de têtes se limitent à modéliser des têtes humaines réalistes, les approches récentes basées sur la diffusion pour la synthèse de têtes omniscientes en termes de style ne peuvent produire que des vues frontales et peinent à maintenir la cohérence des perspectives, ce qui empêche leur conversion en véritables modèles 3D pouvant être rendus sous des angles arbitraires. Nous proposons une nouvelle approche qui génère des vues 360 degrés entièrement cohérentes, adaptées aux formes humaines, stylisées et anthropomorphiques, y compris des accessoires tels que des lunettes et des chapeaux. Notre méthode s'appuie sur le framework DiffPortrait3D, en intégrant un ControlNet personnalisé pour la génération de détails de l'arrière de la tête et un module d'apparence dual pour assurer une cohérence globale entre l'avant et l'arrière. En s'entraînant sur des séquences de vues continues et en intégrant une image de référence arrière, notre approche permet une synthèse de vues robuste et localement continue. Notre modèle peut être utilisé pour produire des champs de rayonnement neural (NeRFs) de haute qualité pour un rendu en temps réel et en vue libre, surpassant les méthodes de pointe en synthèse d'objets et en génération de têtes 360 degrés pour des portraits d'entrée très complexes.
La génération de scènes avec des actifs 3D représente un défi complexe, nécessitant à la fois une compréhension sémantique de haut niveau et un raisonnement géométrique de bas niveau. Bien que les Modèles de Langage Multimodaux de Grande Taille (MLLMs) excellent dans les tâches sémantiques, leur application à la génération de scènes 3D est entravée par leur ancrage limité dans la géométrie 3D. Dans cet article, nous étudions comment exploiter au mieux les MLLMs pour une tâche de placement d'objets. Pour atteindre cet objectif, nous introduisons un nouveau cadre, FirePlace, qui applique les MLLMs existants à (1) un raisonnement géométrique 3D et à l'extraction de détails géométriques pertinents de la scène 3D, (2) la construction et la résolution de contraintes géométriques sur la géométrie de bas niveau extraite, et (3) l'élagage pour des placements finaux conformes au bon sens. En combinant le raisonnement géométrique avec la compréhension du monde réel des MLLMs, notre méthode peut proposer des placements d'objets qui satisfont à la fois les contraintes géométriques et les considérations sémantiques de haut niveau basées sur le bon sens. Nos expériences montrent que ces capacités permettent à notre méthode de placer des objets plus efficacement dans des scènes complexes avec une géométrie intricate, surpassant la qualité des travaux antérieurs.
La création d'un jumeau numérique physique d'un objet du monde réel présente un immense potentiel dans les domaines de la robotique, de la création de contenu et de la réalité étendue (XR). Dans cet article, nous présentons PhysTwin, un nouveau cadre qui utilise des vidéos éparses d'objets dynamiques en interaction pour produire une réplique virtuelle interactive en temps réel, à la fois photoréaliste et physiquement réaliste. Notre approche repose sur deux composants clés : (1) une représentation informée par la physique qui combine des modèles masse-ressort pour une simulation physique réaliste, des modèles génératifs de forme pour la géométrie, et des splats gaussiens pour le rendu ; et (2) un nouveau cadre de modélisation inverse basé sur l'optimisation en plusieurs étapes qui reconstruit la géométrie complète, infère des propriétés physiques denses et reproduit l'apparence réaliste à partir de vidéos. Notre méthode intègre un cadre de physique inverse avec des indices de perception visuelle, permettant une reconstruction haute fidélité même à partir de points de vue partiels, occlus et limités. PhysTwin prend en charge la modélisation de divers objets déformables, notamment des cordes, des peluches, des tissus et des colis. Les expériences montrent que PhysTwin surpasse les méthodes concurrentes en matière de reconstruction, de rendu, de prédiction future et de simulation sous de nouvelles interactions. Nous démontrons en outre ses applications dans la simulation interactive en temps réel et la planification de mouvements robotiques basée sur des modèles.
Le fine-tuning permet aux grands modèles de langage (LLMs) de s'adapter à des domaines spécifiques, mais compromet souvent leur alignement de sécurité préalablement établi. Pour atténuer la dégradation de la sécurité du modèle lors du fine-tuning, nous introduisons LookAhead Tuning, qui comprend deux méthodes simples, peu coûteuses en ressources et efficaces, basées sur les données, modifiant les données d'entraînement en prévisualisant des préfixes partiels de réponses. Les deux méthodes visent à préserver les mécanismes de sécurité inhérents au modèle en minimisant les perturbations des distributions initiales de tokens. Des expériences approfondies démontrent que LookAhead Tuning maintient efficacement la sécurité du modèle sans sacrifier les performances robustes sur les tâches en aval. Nos résultats positionnent LookAhead Tuning comme une solution fiable et efficace pour l'adaptation sûre et performante des LLMs. Le code est disponible à l'adresse suivante : https://github.com/zjunlp/LookAheadTuning.
Les grands modèles de langage (LLM) modernes rencontrent des difficultés pour effectuer des mises à jour efficaces, car chaque nouvelle version de modèle pré-entraîné nécessite de répéter des processus d'alignement coûteux. Ce défi s'applique également aux modèles spécifiques à un domaine ou à une langue, où le fine-tuning sur des données spécialisées doit être refait pour chaque nouvelle version du modèle de base. Dans cet article, nous explorons le transfert des mises à jour de fine-tuning entre différentes versions de modèles. Plus précisément, nous dérivons le vecteur de différence d'une version source du modèle, qui représente les changements de poids issus du fine-tuning, et l'appliquons au modèle de base d'une version cible différente. Grâce à des évaluations empiriques sur diverses versions de modèles open-weight, nous montrons que le transfert des vecteurs de différence peut considérablement améliorer le modèle de base cible, atteignant souvent des performances comparables à celles de sa version fine-tunée. Par exemple, la réutilisation des mises à jour de fine-tuning de Llama 3.0 8B entraîne une amélioration absolue de la précision de 10,7 % sur GPQA par rapport au modèle de base Llama 3.1 8B sans entraînement supplémentaire, surpassant Llama 3.1 8B Instruct. Dans un contexte de développement de modèles multilingues, nous montrons que cette approche peut augmenter significativement les performances sur des tâches dans la langue cible sans réentraînement, avec des améliorations absolues de 4,7 % et 15,5 % sur Global MMLU pour le malgache et le turc, respectivement, par rapport à Llama 3.1 8B Instruct. Nos expériences contrôlées révèlent que le transfert de fine-tuning est plus efficace lorsque les modèles source et cible sont linéairement connectés dans l'espace des paramètres. De plus, nous démontrons que le transfert de fine-tuning offre un point de départ plus robuste et plus efficace sur le plan informatique pour un fine-tuning ultérieur. Enfin, nous proposons une approche itérative de recyclage puis de fine-tuning pour un développement continu de modèles, qui améliore à la fois l'efficacité et l'efficience. Nos résultats suggèrent que le transfert de fine-tuning est une stratégie viable pour réduire les coûts d'entraînement tout en maintenant les performances du modèle.
Nous présentons une nouvelle méthode pour reconstruire des avatars humains 3D personnalisés avec des animations réalistes à partir de seulement quelques images. En raison des grandes variations de formes corporelles, de poses et de types de vêtements, les méthodes existantes nécessitent généralement des heures d'optimisation par sujet lors de l'inférence, ce qui limite leurs applications pratiques. En revanche, nous apprenons un a priori universel à partir de plus d'un millier d'humains habillés pour parvenir à une génération instantanée en feedforward et à une généralisation zero-shot. Plus précisément, au lieu de rigger l'avatar avec des poids de skinning partagés, nous inférons conjointement la forme personnalisée de l'avatar, les poids de skinning et les déformations dépendantes de la pose, ce qui améliore efficacement la fidélité géométrique globale et réduit les artefacts de déformation. De plus, pour normaliser les variations de pose et résoudre l'ambiguïté couplée entre les formes canoniques et les poids de skinning, nous concevons un processus de canonicalisation 3D pour produire des conditions initiales alignées au pixel, ce qui aide à reconstruire des détails géométriques fins. Nous proposons ensuite une agrégation de caractéristiques multi-images pour réduire robustement les artefacts introduits lors de la canonicalisation et fusionner un avatar plausible préservant les identités spécifiques à la personne. Enfin, nous entraînons le modèle dans un cadre end-to-end sur un jeu de données de capture à grande échelle, qui contient des sujets humains diversifiés associés à des scans 3D de haute qualité. Des expériences approfondies montrent que notre méthode génère des reconstructions et des animations plus authentiques que les méthodes de pointe, et peut être directement généralisée à des entrées provenant de photos prises au hasard avec un téléphone. La page du projet et le code sont disponibles à l'adresse https://github.com/rongakowang/FRESA.
Les modèles de langage à grande échelle (LLMs) avec des fenêtres de contexte longues permettent des applications puissantes, mais au prix d'une consommation de mémoire élevée pour stocker les états de Clé et de Valeur (KV-Cache). Des études récentes ont tenté de fusionner le KV-cache de plusieurs couches en représentations partagées, mais ces approches nécessitent soit un pré-entraînement coûteux, soit reposent sur des hypothèses de similarité cosinus élevée par token entre les couches, ce qui ne se vérifie généralement pas en pratique. Nous constatons que les vecteurs singuliers dominants sont remarquablement alignés à travers plusieurs couches du KV-Cache. Exploitant cette observation, nous proposons xKV, une méthode simple post-entraînement qui applique la Décomposition en Valeurs Singulières (SVD) sur le KV-Cache de couches groupées. xKV consolide le KV-Cache de plusieurs couches en un sous-espace partagé de faible rang, réduisant significativement la taille du KV-Cache. À travers des évaluations approfondies sur le benchmark de contexte long RULER avec des LLMs largement utilisés (par exemple, Llama-3.1 et Qwen2.5), xKV atteint des taux de compression jusqu'à 6,8 fois supérieurs à la technique inter-couches de pointe tout en améliorant la précision de 2,7%. De plus, xKV est compatible avec l'attention latente multi-têtes émergente (MLA) (par exemple, DeepSeek-Coder-V2), offrant un taux de compression notable de 3x sur les tâches de codage sans dégradation de performance. Ces résultats mettent en évidence la capacité et la polyvalence de xKV à résoudre les goulots d'étranglement de mémoire pour l'inférence des LLMs à contexte long. Notre code est disponible publiquement à l'adresse : https://github.com/abdelfattah-lab/xKV.
L'appariement de flux dans le simplexe continu s'est imposé comme une stratégie prometteuse pour la conception de séquences d'ADN, mais peine à s'adapter aux dimensions plus élevées du simplexe nécessaires à la génération de peptides et de protéines. Nous introduisons Gumbel-Softmax Flow et Score Matching, un cadre génératif sur le simplexe basé sur un nouvel interpolant Gumbel-Softmax avec une température dépendante du temps. En utilisant cet interpolant, nous introduisons Gumbel-Softmax Flow Matching en dérivant un champ de vitesse paramétré qui transporte des distributions catégorielles lisses vers des distributions concentrées sur un seul sommet du simplexe. Nous présentons également Gumbel-Softmax Score Matching, qui apprend à régresser le gradient de la densité de probabilité. Notre cadre permet une génération de haute qualité et diversifiée, et s'adapte efficacement aux simplexes de plus haute dimension. Pour permettre un guidage sans entraînement, nous proposons Straight-Through Guided Flows (STGFlow), une méthode de guidage basée sur des classifieurs qui exploite des estimateurs straight-through pour orienter le champ de vitesse inconditionnel vers les sommets optimaux du simplexe. STGFlow permet un guidage efficace à l'inférence en utilisant des classifieurs pré-entraînés sur des séquences propres, et peut être utilisé avec n'importe quelle méthode de flux discret. Ensemble, ces composants forment un cadre robuste pour la génération contrôlée de séquences de novo. Nous démontrons des performances de pointe dans la conception conditionnelle de promoteurs d'ADN, la génération de protéines basée uniquement sur les séquences, et la conception de peptides liant des cibles pour le traitement de maladies rares.
La détection et le suivi de multiples véhicules aériens sans pilote (UAV) dans des vidéos infrarouges thermiques sont intrinsèquement complexes en raison du faible contraste, du bruit environnemental et de la petite taille des cibles. Cet article propose une approche simple pour aborder le suivi multi-UAV dans les vidéos infrarouges thermiques, en tirant parti des avancées récentes en matière de détection et de suivi. Plutôt que de s'appuyer sur le pipeline YOLOv5 avec DeepSORT, nous présentons un cadre de suivi basé sur YOLOv12 et BoT-SORT, amélioré par des stratégies d'entraînement et d'inférence adaptées. Nous évaluons notre approche en suivant les métriques du 4e Anti-UAV Challenge et démontrons des performances compétitives. Notamment, nous obtenons des résultats solides sans utiliser d'amélioration de contraste ni de fusion d'informations temporelles pour enrichir les caractéristiques des UAV, ce qui souligne notre approche comme une "Base de Référence Solide" pour la tâche de suivi multi-UAV. Nous fournissons des détails d'implémentation, une analyse expérimentale approfondie et une discussion sur les améliorations potentielles. Le code est disponible à l'adresse https://github.com/wish44165/YOLOv12-BoT-SORT-ReID.
La prise de décision incarnée est fondamentale pour les agents d'IA opérant dans des environnements réels. Bien que les modèles de langage visuel (VLMs) aient fait progresser cette capacité, ils peinent encore à prendre des décisions complexes, en particulier dans des situations centrées sur l'humain qui nécessitent un raisonnement approfondi sur les besoins et les valeurs humaines. Dans cette étude, nous évaluons systématiquement des VLMs open-source sur des tâches de prise de décision multimodale centrées sur l'humain. Nous constatons que les modèles de langage (LLMs) recevant uniquement des descriptions textuelles surpassent de manière inattendue leurs homologues VLMs de taille similaire qui traitent des images réelles, suggérant que l'alignement visuel pourrait entraver les capacités des VLMs. Pour relever ce défi, nous proposons une nouvelle approche d'entraînement basée uniquement sur du texte avec des données textuelles synthétisées. Cette méthode renforce les composants linguistiques des VLMs et transfère les capacités apprises à l'inférence multimodale, éliminant ainsi le besoin de données coûteuses associant images et texte. De plus, nous montrons que les VLMs peuvent obtenir des gains de performance substantiels grâce à l'auto-amélioration, en utilisant des données d'entraînement générées par leurs homologues LLMs plutôt que de dépendre de modèles enseignants plus grands comme GPT-4. Nos résultats établissent une approche plus efficace et évolutive pour améliorer les capacités de prise de décision centrée sur l'humain des VLMs, ouvrant de nouvelles voies pour optimiser les VLMs grâce à des mécanismes d'auto-amélioration.
Les avancées dans les modèles de base pour l'observation de la Terre (OT) ont débloqué le potentiel des données satellitaires massives pour apprendre des représentations génériques depuis l'espace, bénéficiant ainsi à un large éventail d'applications en aval cruciales pour notre planète. Cependant, la plupart des efforts existants restent limités à des capteurs spectraux fixes, se concentrent uniquement sur la surface de la Terre et négligent les métadonnées précieuses au-delà des images. Dans ce travail, nous faisons un pas vers les modèles de base de nouvelle génération pour l'OT avec trois composants clés : 1) Copernicus-Pretrain, un jeu de données de pré-entraînement à grande échelle qui intègre 18,7 millions d'images alignées provenant de toutes les principales missions Sentinel de Copernicus, couvrant de la surface de la Terre à son atmosphère ; 2) Copernicus-FM, un modèle de base unifié capable de traiter toute modalité de capteur spectrale ou non spectrale en utilisant des hyper-réseaux dynamiques étendus et un encodage flexible des métadonnées ; et 3) Copernicus-Bench, un benchmark d'évaluation systématique avec 15 tâches hiérarchiques en aval allant du prétraitement aux applications spécialisées pour chaque mission Sentinel. Notre jeu de données, modèle et benchmark améliorent considérablement l'évolutivité, la polyvalence et l'adaptabilité multimodale des modèles de base pour l'OT, tout en créant de nouvelles opportunités pour connecter l'OT, la météorologie et la recherche climatique. Les codes, jeux de données et modèles sont disponibles à l'adresse https://github.com/zhu-xlab/Copernicus-FM.
Comprendre le comportement humain nécessite de mesurer les actions comportementales. En raison de sa complexité, le comportement est mieux représenté par une structure sémantique riche, telle que le langage. Le développement récent des modèles de langage multi-modaux de grande taille (MLLMs) constitue un candidat prometteur pour une large gamme de tâches de compréhension des actions. Dans ce travail, nous nous concentrons sur l'évaluation puis l'amélioration des MLLMs pour effectuer la reconnaissance d'actions. Nous reformulons EPIC-KITCHENS-100, l'un des plus grands et des plus complexes ensembles de données d'actions égocentriques, sous la forme de questions multiples sur des vidéos (EPIC-KITCHENS-100-MQA). Nous montrons que lorsque nous sélectionnons des réponses incorrectes difficiles comme distracteurs, les MLLMs de pointe peinent à reconnaître les actions correctes. Nous proposons une série de méthodes qui améliorent considérablement la capacité des MLLMs à effectuer la reconnaissance d'actions, atteignant des performances de pointe sur l'ensemble de validation d'EPIC-KITCHENS-100, tout en surpassant GPT-4o de 21 points en précision sur EPIC-KITCHENS-100-MQA. Enfin, nous montrons des améliorations sur d'autres benchmarks vidéo liés aux actions tels que EgoSchema, PerceptionTest, LongVideoBench, VideoMME et MVBench, suggérant que les MLLMs constituent une voie prometteuse pour les tâches complexes d'actions. Le code et les modèles sont disponibles à l'adresse suivante : https://github.com/AdaptiveMotorControlLab/LLaVAction.
Nous présentons Any6D, un cadre sans modèle pour l'estimation de pose 6D d'objets qui ne nécessite qu'une seule image d'ancrage RGB-D pour estimer à la fois la pose 6D et la taille d'objets inconnus dans de nouvelles scènes. Contrairement aux méthodes existantes qui s'appuient sur des modèles 3D texturés ou des vues multiples, Any6D exploite un processus d'alignement conjoint d'objets pour améliorer l'alignement 2D-3D et l'estimation de l'échelle métrique, permettant ainsi une précision accrue de la pose. Notre approche intègre une stratégie de rendu et comparaison pour générer et affiner des hypothèses de pose, offrant une performance robuste dans des scénarios comportant des occlusions, des vues non chevauchantes, des conditions d'éclairage variées et de grandes variations inter-environnementales. Nous évaluons notre méthode sur cinq ensembles de données complexes : REAL275, Toyota-Light, HO3D, YCBINEOAT et LM-O, démontrant son efficacité à surpasser significativement les méthodes de pointe pour l'estimation de pose d'objets inconnus. Page du projet : https://taeyeop.com/any6d
Les modèles vision-langage (VLMs) montrent un grand potentiel pour la compréhension des scènes 3D, mais sont principalement appliqués aux espaces intérieurs ou à la conduite autonome, en se concentrant sur des tâches de bas niveau comme la segmentation. Ce travail étend leur utilisation aux environnements à l'échelle urbaine en exploitant des reconstructions 3D issues d'images aériennes multi-vues. Nous proposons OpenCity3D, une approche qui aborde des tâches de haut niveau, telles que l'estimation de la densité de population, la classification de l'âge des bâtiments, la prédiction des prix immobiliers, l'évaluation des taux de criminalité et l'évaluation de la pollution sonore. Nos résultats mettent en évidence les impressionnantes capacités zero-shot et few-shot d'OpenCity3D, démontrant son adaptabilité à de nouveaux contextes. Cette recherche établit un nouveau paradigme pour l'analyse urbaine pilotée par le langage, permettant des applications dans la planification, les politiques publiques et la surveillance environnementale. Consultez notre page de projet : opencity3d.github.io
Les modèles d'IA ont réalisé des progrès significatifs ces dernières années dans leur capacité à décrire et à répondre à des questions sur des images du monde réel. Ils ont également fait des avancées dans leur aptitude à converser avec les utilisateurs en temps réel à l'aide d'entrées audio. Cela soulève la question : avons-nous atteint le point où les modèles d'IA, connectés à une caméra et un microphone, peuvent converser avec les utilisateurs en temps réel sur des scènes et des événements qui se déroulent en direct devant la caméra ? Cet objectif de longue date en IA est une condition préalable pour que les assistants IA et les robots humanoïdes puissent interagir avec les humains dans des situations quotidiennes. Dans ce travail, nous introduisons un nouveau jeu de données et un benchmark, le Qualcomm Interactive Video Dataset (IVD), qui nous permet d'évaluer dans quelle mesure les modèles existants peuvent supporter ces capacités, et à quel point ces compétences peuvent être acquises par le biais du fine-tuning. Le jeu de données est basé sur une configuration simple de questions-réponses, où les utilisateurs posent des questions auxquelles le système doit répondre en temps réel, en se basant sur les entrées de la caméra et de l'audio. Nous montrons que les modèles existants sont loin derrière les performances humaines sur cette tâche, et nous identifions les principales sources de cet écart de performance. Cependant, nous montrons également que pour de nombreuses compétences perceptuelles requises, le fine-tuning sur ce type de données peut réduire considérablement cet écart.
L'utilisation de grands modèles enseignants pour guider l'entraînement de modèles étudiants plus petits est devenue le paradigme dominant pour un apprentissage efficace et efficient. Cependant, les incompatibilités de vocabulaire entre les modèles de langage enseignants et étudiants posent des défis importants en modélisation du langage, entraînant des séquences de tokens et des distributions de sortie divergentes. Pour surmonter ces limitations, nous proposons la modélisation du langage guidée par enseignant agnostique au vocabulaire (VocAgnoLM), une approche novatrice qui comble le fossé causé par l'incompatibilité de vocabulaire grâce à deux méthodes clés : (1) l'alignement lexical au niveau des tokens, qui aligne les séquences de tokens entre des vocabulaires incompatibles, et (2) la perte guidée par l'enseignant, qui exploite la perte du modèle enseignant pour guider efficacement l'entraînement de l'étudiant. Nous démontrons son efficacité en modélisation du langage avec un modèle étudiant de 1 milliard de paramètres utilisant divers modèles enseignants de 7 milliards de paramètres avec des vocabulaires différents. Notamment, avec Qwen2.5-Math-Instruct, un modèle enseignant partageant seulement environ 6 % de son vocabulaire avec TinyLlama, VocAgnoLM obtient une amélioration de performance de 46 % par rapport à un pré-entraînement continu naïf. De plus, nous montrons que VocAgnoLM bénéficie systématiquement de modèles enseignants plus puissants, offrant ainsi une solution robuste aux incompatibilités de vocabulaire en modélisation du langage.
Bien que la convolution dynamique (DY-Conv) ait démontré des performances prometteuses en permettant une sélection adaptative des poids grâce à plusieurs poids parallèles combinés avec un mécanisme d'attention, la réponse en fréquence de ces poids tend à présenter une forte similarité, entraînant des coûts en paramètres élevés mais une adaptabilité limitée. Dans ce travail, nous introduisons la convolution dynamique en fréquence (FDConv), une approche novatrice qui atténue ces limitations en apprenant un budget fixe de paramètres dans le domaine de Fourier. FDConv divise ce budget en groupes basés sur la fréquence avec des indices de Fourier disjoints, permettant la construction de poids diversifiés en fréquence sans augmenter le coût en paramètres. Pour renforcer davantage l'adaptabilité, nous proposons la modulation spatiale du noyau (KSM) et la modulation de bande de fréquence (FBM). KSM ajuste dynamiquement la réponse en fréquence de chaque filtre au niveau spatial, tandis que FBM décompose les poids en bandes de fréquence distinctes dans le domaine fréquentiel et les module dynamiquement en fonction du contenu local. Des expériences approfondies sur la détection d'objets, la segmentation et la classification valident l'efficacité de FDConv. Nous démontrons que, lorsqu'elle est appliquée à ResNet-50, FDConv atteint des performances supérieures avec une augmentation modeste de +3,6M de paramètres, surpassant les méthodes précédentes qui nécessitent des augmentations substantielles des budgets en paramètres (par exemple, CondConv +90M, KW +76,5M). De plus, FDConv s'intègre de manière transparente dans une variété d'architectures, y compris ConvNeXt et Swin-Transformer, offrant une solution flexible et efficace pour les tâches de vision modernes. Le code est rendu public à l'adresse https://github.com/Linwei-Chen/FDConv.
Nous proposons une méthode sans apprentissage pour la segmentation sémantique à vocabulaire ouvert utilisant des modèles vision-et-langage (VLMs). Notre approche améliore les prédictions initiales par patch des VLMs grâce à une propagation de labels, qui optimise conjointement les prédictions en intégrant les relations entre patches. Étant donné que les VLMs sont principalement optimisés pour l'alignement inter-modal et non pour la similarité intra-modale, nous utilisons un modèle de vision (VM) qui s'avère mieux capturer ces relations. Nous abordons les limitations de résolution inhérentes aux encodeurs basés sur des patches en appliquant la propagation de labels au niveau des pixels comme étape de raffinement, améliorant ainsi significativement la précision de la segmentation près des limites de classes. Notre méthode, appelée LPOSS+, effectue l'inférence sur l'ensemble de l'image, évitant ainsi un traitement par fenêtres et capturant ainsi les interactions contextuelles à travers l'image entière. LPOSS+ atteint des performances de pointe parmi les méthodes sans apprentissage, sur un ensemble diversifié de jeux de données. Code : https://github.com/vladan-stojnic/LPOSS
Le raisonnement spatio-temporel est essentiel pour comprendre les environnements réels dans divers domaines, tels que la conduite autonome et l'analyse sportive. Les récents progrès ont amélioré la capacité de raisonnement spatial des modèles vision-langage (VLMs) grâce à l'introduction de données à grande échelle, mais ces modèles peinent encore à analyser des éléments cinématiques comme la distance parcourue et la vitesse des objets en mouvement. Pour combler cette lacune, nous construisons un ensemble de données et un benchmark de raisonnement spatio-temporel impliquant un ajustement d'instructions cinématiques, appelés STKit et STKit-Bench. Ils consistent en des vidéos du monde réel avec des annotations 3D, détaillant la dynamique du mouvement des objets : distance parcourue, vitesse, direction du mouvement, comparaisons de distances inter-objets et direction relative du mouvement. Pour étendre la construction de telles données à des vidéos sans étiquettes 3D, nous proposons un pipeline automatique pour générer des pseudo-étiquettes en utilisant la reconstruction 4D à l'échelle réelle. Avec nos données d'ajustement d'instructions cinématiques pour le raisonnement spatio-temporel, nous présentons ST-VLM, un VLM amélioré pour le raisonnement spatio-temporel, qui montre des performances exceptionnelles sur STKit-Bench. De plus, nous montrons que ST-VLM se généralise robustement à travers divers domaines et tâches, surpassant les modèles de référence sur d'autres benchmarks spatio-temporels (par exemple, ActivityNet, TVQA+). Enfin, en intégrant le raisonnement spatio-temporel appris avec les capacités existantes, ST-VLM permet un raisonnement complexe en plusieurs étapes. Page du projet : https://ikodoh.github.io/ST-VLM.
Comprendre les propriétés géométriques et sémantiques de la scène est crucial pour la navigation autonome, et particulièrement complexe dans le cas de la navigation des véhicules aériens sans pilote (UAV). Ces informations peuvent être obtenues en estimant les cartes de profondeur et de segmentation sémantique de l'environnement environnant. Pour une utilisation pratique dans la navigation autonome, cette procédure doit être exécutée aussi près que possible du temps réel. Dans cet article, nous exploitons des caméras monoculaires sur des robots aériens pour prédire les cartes de profondeur et sémantiques dans des environnements non structurés à basse altitude. Nous proposons une architecture d'apprentissage profond conjointe capable d'exécuter ces deux tâches avec précision et rapidité, et validons son efficacité sur les ensembles de données de référence MidAir et Aeroscapes. Notre architecture conjointe se révèle compétitive ou supérieure aux autres méthodes d'architecture unique ou conjointe, tout en exécutant sa tâche rapidement avec une prédiction de 20,2 FPS sur une seule GPU NVIDIA Quadro P5000, et avec une empreinte mémoire réduite. Tous les codes pour l'entraînement et la prédiction sont disponibles à ce lien : https://github.com/Malga-Vision/Co-SemDepth