HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

16 papers found

Rapport Technique de Kimi-VL
Kimi-VL Technical Report

Apr 10

ByKimi Team, Angang Du, Bohong Yin, Bowei Xing, Bowen Qu, Bowen Wang, Cheng Chen, Chenlin Zhang, Chenzhuang Du, Chu Wei, Congcong Wang, Dehao Zhang, Dikang Du, Dongliang Wang, Enming Yuan, Enzhe Lu, Fang Li, Flood Sung, Guangda Wei, Guokun Lai, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haoning Wu, Haotian Yao, Haoyu Lu, Heng Wang, Hongcheng Gao, Huabin Zheng, Jiaming Li, Jianlin Su, Jianzhou Wang, Jiaqi Deng, Jiezhong Qiu, Jin Xie, Jinhong Wang, Jingyuan Liu, Junjie Yan, Kun Ouyang, Liang Chen, Lin Sui, Longhui Yu, Mengfan Dong, Mengnan Dong, Nuo Xu, Pengyu Cheng, Qizheng Gu, Runjie Zhou, Shaowei Liu, Sihan Cao, Tao Yu, Tianhui Song, Tongtong Bai, Wei Song, Weiran He, Weixiao Huang, Weixin Xu, Xiaokun Yuan, Xingcheng Yao, Xingzhe Wu, Xinxing Zu, Xinyu Zhou, Xinyuan Wang, Y. Charles, Yan Zhong, Yang Li, Yangyang Hu, Yanru Chen, Yejie Wang, Yibo Liu, Yibo Miao, Yidao Qin, Yimin Chen, Yiping Bao, Yiqin Wang, Yongsheng Kang, Yuanxin Liu, Yulun Du, Yuxin Wu, Yuzhi Wang, Yuzi Yan, Zaida Zhou, Zhaowei Li, Zhejun Jiang, Zheng Zhang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Zijia Zhao, Ziwei Chen

132

Nous présentons Kimi-VL, un modèle vision-langage (VLM) open-source efficace basé sur une architecture Mixture-of-Experts (MoE) qui offre un raisonnement multimodal avancé, une compréhension de contexte étendu et de solides capacités d'agent - tout en activant seulement 2,8 milliards de paramètres dans son décodeur de langage (Kimi-VL-A3B). Kimi-VL démontre des performances remarquables dans des domaines exigeants : en tant que VLM généraliste, il excelle dans les tâches d'agent multi-tours (par exemple, OSWorld), rivalisant avec les modèles phares. De plus, il présente des capacités impressionnantes dans diverses tâches vision-langage complexes, incluant la compréhension d'images et de vidéos de niveau universitaire, la reconnaissance de texte (OCR), le raisonnement mathématique et la compréhension multi-images. Dans les évaluations comparatives, il rivalise efficacement avec des VLMs efficaces de pointe tels que GPT-4o-mini, Qwen2.5-VL-7B et Gemma-3-12B-IT, tout en surpassant GPT-4o dans plusieurs domaines clés. Kimi-VL fait également des progrès dans le traitement de contextes longs et la perception claire. Avec une fenêtre de contexte étendue à 128K, Kimi-VL peut traiter des entrées longues et variées, obtenant des scores impressionnants de 64,5 sur LongVideoBench et 35,1 sur MMLongBench-Doc. Son encodeur visuel en résolution native, MoonViT, lui permet de voir et de comprendre des entrées visuelles en ultra-haute résolution, atteignant 83,2 sur InfoVQA et 34,5 sur ScreenSpot-Pro, tout en maintenant un coût computationnel réduit pour les tâches courantes. Sur la base de Kimi-VL, nous introduisons une variante avancée de raisonnement long : Kimi-VL-Thinking. Développé grâce à un fine-tuning supervisé (SFT) en chaîne de pensée (CoT) étendue et à l'apprentissage par renforcement (RL), ce modèle présente de solides capacités de raisonnement à long terme. Il obtient des scores de 61,7 sur MMMU, 36,8 sur MathVision et 71,3 sur MathVista tout en conservant les 2,8 milliards de paramètres activés du LLM, établissant une nouvelle référence pour les modèles de pensée multimodale efficaces. Le code et les modèles sont accessibles publiquement à l'adresse https://github.com/MoonshotAI/Kimi-VL.

DeepSeek-R1 Thoughtologie : Explorons le raisonnement des modèles de langage (LLM)
DeepSeek-R1 Thoughtology: Let's <think> about LLM Reasoning

Apr 2

BySara Vera Marjanović, Arkil Patel, Vaibhav Adlakha, Milad Aghajohari, Parishad BehnamGhader, Mehar Bhatia, Aditi Khandelwal, Austin Kraft, Benno Krojer, Xing Han Lù, Nicholas Meade, Dongchan Shin, Amirhossein Kazemnejad, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Siva Reddy

Les grands modèles de raisonnement comme DeepSeek-R1 marquent un changement fondamental dans la manière dont les LLM abordent les problèmes complexes. Au lieu de produire directement une réponse pour une entrée donnée, DeepSeek-R1 crée des chaînes de raisonnement détaillées en plusieurs étapes, semblant "réfléchir" à un problème avant de fournir une réponse. Ce processus de raisonnement est accessible publiquement à l'utilisateur, offrant d'innombrables opportunités pour étudier le comportement de raisonnement du modèle et ouvrant le champ de la Thoughtologie. En partant d'une taxonomie des éléments de base du raisonnement de DeepSeek-R1, nos analyses sur DeepSeek-R1 examinent l'impact et la contrôlabilité de la longueur des pensées, la gestion des contextes longs ou confus, les préoccupations culturelles et de sécurité, ainsi que le statut de DeepSeek-R1 par rapport aux phénomènes cognitifs, tels que le traitement du langage semblable à celui de l'homme et la modélisation du monde. Nos résultats dressent un tableau nuancé. Notamment, nous montrons que DeepSeek-R1 possède une "zone optimale" de raisonnement, où un temps d'inférence supplémentaire peut nuire à la performance du modèle. De plus, nous observons une tendance de DeepSeek-R1 à ruminer de manière persistante sur des formulations de problèmes déjà explorées, entravant ainsi toute exploration ultérieure. Nous notons également de fortes vulnérabilités en matière de sécurité de DeepSeek-R1 par rapport à sa contrepartie non raisonnante, ce qui peut également compromettre les LLM alignés sur la sécurité.

C3PO : Optimisation collaborative des voies critiques et des experts centraux pour le réassemblage des experts au moment du test
C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing

Apr 10

ByZhongyang Li, Ziyue Li, Tianyi Zhou

Les modèles de langage de grande taille (LLM) à mélange d'experts (MoE) souffrent de chemins d'experts fortement sous-optimaux - notre étude révèle que la sélection naïve des experts apprise lors du pré-entraînement laisse un écart de précision surprenant de 10 à 20 % à combler. Motivés par cette observation, nous développons une nouvelle classe de méthodes d'optimisation au moment du test pour ré-équilibrer ou "re-mélanger" les experts dans différentes couches de manière conjointe pour chaque échantillon de test. Comme la vérité terrain de l'échantillon de test est inconnue, nous proposons d'optimiser un objectif de substitution défini par les "voisins réussis" de l'échantillon provenant d'un ensemble de référence. Nous introduisons trois substituts et algorithmes basés sur la recherche de mode, la régression par noyau et la perte moyenne des échantillons/tâches de référence similaires. Pour réduire le coût de l'optimisation des chemins entiers, nous appliquons nos algorithmes uniquement aux poids de mélange des experts centraux dans les couches critiques, ce qui offre des performances similaires mais permet d'économiser des calculs significatifs. Cela conduit à "l'Optimisation Collaborative des Chemins par Experts Centraux dans les Couches Critiques (C3PO)". Nous appliquons C3PO à deux récents LLM MoE et l'évaluons sur six benchmarks largement utilisés. Il améliore systématiquement le modèle de base de 7 à 15 % en précision et surpasse les méthodes d'apprentissage au moment du test couramment utilisées, comme l'apprentissage en contexte et le réglage par prompt/préfixe, avec une large marge. De plus, C3PO permet aux LLM MoE avec 1 à 3 milliards de paramètres actifs de surpasser les LLM de 7 à 9 milliards de paramètres, améliorant ainsi les avantages de MoE en termes d'efficacité. Notre étude d'ablation approfondie apporte également de nouvelles perspectives sur l'amélioration au moment du test pour MoE.

VisualCloze : Un cadre universel de génération d'images via l'apprentissage visuel en contexte
VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

Apr 10

ByZhong-Yu Li, Ruoyi Du, Juncheng Yan, Le Zhuo, Zhen Li, Peng Gao, Zhanyu Ma, Ming-Ming Cheng

Les récents progrès des modèles de diffusion ont considérablement fait avancer diverses tâches de génération d'images. Cependant, l'approche dominante actuelle reste centrée sur la construction de modèles spécifiques à une tâche, ce qui limite leur efficacité lorsqu'il s'agit de répondre à un large éventail de besoins différents. Bien que les modèles universels tentent de surmonter cette limitation, ils se heurtent à des défis critiques, notamment l'instruction généralisable des tâches, la distribution appropriée des tâches et la conception architecturale unifiée. Pour relever ces défis, nous proposons VisualCloze, un cadre universel de génération d'images, qui prend en charge une large gamme de tâches dans le domaine, la généralisation à des tâches non vues, l'unification inédite de multiples tâches et la génération inverse. Contrairement aux méthodes existantes qui s'appuient sur des instructions de tâches basées sur le langage, entraînant une ambiguïté des tâches et une faible généralisation, nous intégrons l'apprentissage visuel en contexte, permettant aux modèles d'identifier les tâches à partir de démonstrations visuelles. Par ailleurs, la sparsité inhérente des distributions de tâches visuelles entrave l'apprentissage de connaissances transférables entre les tâches. À cette fin, nous introduisons Graph200K, un ensemble de données structuré en graphe qui établit diverses tâches interreliées, augmentant la densité des tâches et les connaissances transférables. De plus, nous découvrons que notre formulation unifiée de génération d'images partage un objectif cohérent avec le remplissage d'images, nous permettant ainsi d'exploiter les forts a priori génératifs des modèles de remplissage pré-entraînés sans modifier les architectures.

VCR-Bench : Un Cadre d'Évaluation Complet pour le Raisonnement en Chaîne de Pensée dans les Vidéos
VCR-Bench: A Comprehensive Evaluation Framework for Video Chain-of-Thought Reasoning

Apr 10

ByYukun Qi, Yiming Zhao, Yu Zeng, Xikun Bao, Wenxuan Huang, Lin Chen, Zehui Chen, Jie Zhao, Zhongang Qi, Feng Zhao

L'avancée du raisonnement en chaîne de pensée (Chain-of-Thought, CoT) a considérablement amélioré les capacités des grands modèles de langage (LLMs) et des grands modèles vision-langage (LVLMs). Cependant, un cadre d'évaluation rigoureux pour le raisonnement CoT appliqué aux vidéos fait encore défaut. Les benchmarks vidéo actuels ne parviennent pas à évaluer adéquatement le processus de raisonnement ni à identifier si les échecs proviennent de lacunes dans les capacités de perception ou de raisonnement. Par conséquent, nous introduisons VCR-Bench, un nouveau benchmark conçu pour évaluer de manière exhaustive les capacités de raisonnement CoT des LVLMs dans le contexte vidéo. VCR-Bench comprend 859 vidéos couvrant une variété de contenus et de durées, ainsi que 1 034 paires question-réponse de haute qualité. Chaque paire est annotée manuellement avec un raisonnement CoT étape par étape, où chaque étape est étiquetée pour indiquer son association avec les capacités de perception ou de raisonnement. De plus, nous concevons sept dimensions de tâches distinctes et proposons le score CoT pour évaluer l'ensemble du processus CoT en nous basant sur les raisonnements CoT étiquetés étape par étape. Des expériences approfondies sur VCR-Bench mettent en lumière des limitations substantielles des LVLMs actuels. Même le modèle le plus performant, o1, n'atteint qu'un score CoT de 62,8 % et une précision de 56,7 %, tandis que la plupart des modèles obtiennent des scores inférieurs à 40 %. Les expériences montrent que la plupart des modèles obtiennent des scores plus faibles sur les étapes de perception que sur celles de raisonnement, révélant un goulot d'étranglement clé des LVLMs dans le traitement des informations spatio-temporelles pour le raisonnement vidéo complexe. Une forte corrélation positive entre le score CoT et la précision confirme la validité de notre cadre d'évaluation et souligne le rôle crucial du raisonnement CoT dans la résolution de tâches de raisonnement vidéo complexes. Nous espérons que VCR-Bench servira de cadre d'évaluation standardisé et mettra en lumière les véritables lacunes dans les tâches de raisonnement vidéo complexe.

MM-IFEngine : Vers un suivi d'instructions multimodal
MM-IFEngine: Towards Multimodal Instruction Following

Apr 10

ByShengyuan Ding, Shenxi Wu, Xiangyu Zhao, Yuhang Zang, Haodong Duan, Xiaoyi Dong, Pan Zhang, Yuhang Cao, Dahua Lin, Jiaqi Wang

La capacité de Suivi d'Instructions (Instruction Following, IF) mesure à quel point les Modèles de Langage Multimodaux de Grande Taille (Multi-modal Large Language Models, MLLMs) comprennent exactement ce que les utilisateurs leur disent et s'ils exécutent correctement ces instructions. Les données d'entraînement existantes pour le suivi d'instructions multimodales sont rares, les benchmarks sont simples avec des instructions atomiques, et les stratégies d'évaluation sont imprécises pour les tâches exigeant des contraintes de sortie exactes. Pour remédier à cela, nous présentons MM-IFEngine, un pipeline efficace pour générer des paires image-instruction de haute qualité. Notre pipeline MM-IFEngine produit des données d'entraînement à grande échelle, diversifiées et de haute qualité, MM-IFInstruct-23k, adaptées au Réglage Fin Supervisé (Supervised Fine-Tuning, SFT) et étendues en MM-IFDPO-23k pour l'Optimisation Directe des Préférences (Direct Preference Optimization, DPO). Nous introduisons également MM-IFEval, un benchmark de suivi d'instructions multimodal à la fois exigeant et diversifié, qui inclut (1) des contraintes au niveau de la composition pour les réponses de sortie et des contraintes au niveau de la perception liées aux images d'entrée, et (2) un pipeline d'évaluation complet intégrant à la fois une évaluation basée sur des règles et un modèle de jugement. Nous menons des expériences de SFT et DPO et démontrons que le réglage fin des MLLMs sur MM-IFInstruct-23k et MM-IFDPO-23k permet d'obtenir des gains significatifs sur divers benchmarks IF, tels que MM-IFEval (+10,2 %), MIA (+7,6 %) et IFEval (+12,3 %). Les données complètes et le code d'évaluation seront publiés sur https://github.com/SYuan03/MM-IFEngine.

Lois d'échelle pour les modèles multimodaux natifs Lois d'échelle pour les modèles multimodaux natifs
Scaling Laws for Native Multimodal Models Scaling Laws for Native Multimodal Models

Apr 10

ByMustafa Shukor, Enrico Fini, Victor Guilherme Turrisi da Costa, Matthieu Cord, Joshua Susskind, Alaaeldin El-Nouby

La construction de modèles généralistes capables de percevoir efficacement le monde à travers des signaux multimodaux constitue un objectif de longue date. Les approches actuelles impliquent l'intégration de composants pré-entraînés séparément, comme la connexion d'encodeurs visuels à des modèles de langage (LLMs) suivie d'un entraînement multimodal. Bien que ces approches démontrent une remarquable efficacité en termes d'échantillons, la question de savoir si ces architectures à fusion tardive sont intrinsèquement supérieures reste ouverte. Dans ce travail, nous revisitons la conception architecturale des modèles multimodaux natifs (NMMs)—ceux entraînés dès le départ sur toutes les modalités—et menons une étude approfondie des lois d'échelle, couvrant 457 modèles entraînés avec différentes architectures et mélanges d'entraînement. Notre investigation révèle qu'il n'existe aucun avantage inhérent aux architectures à fusion tardive par rapport à celles à fusion précoce, qui ne reposent pas sur des encodeurs d'images. Au contraire, la fusion précoce montre de meilleures performances avec un nombre de paramètres réduit, est plus efficace à entraîner et plus facile à déployer. Motivés par les performances solides des architectures à fusion précoce, nous montrons que l'intégration de Mixture of Experts (MoEs) permet à des modèles d'apprendre des poids spécifiques à chaque modalité, améliorant ainsi significativement les performances.

HoloPart : Segmentation Amodale de Pièces 3D Générative
HoloPart: Generative 3D Part Amodal Segmentation

Apr 10

ByYunhan Yang, Yuan-Chen Guo, Yukun Huang, Zi-Xin Zou, Zhipeng Yu, Yangguang Li, Yan-Pei Cao, Xihui Liu

La segmentation amodale de parties 3D – décomposer une forme 3D en parties complètes et sémantiquement significatives, même lorsqu'elles sont occluses – est une tâche complexe mais cruciale pour la création et la compréhension de contenus 3D. Les méthodes existantes de segmentation de parties 3D ne parviennent qu'à identifier les patches de surface visibles, limitant ainsi leur utilité. Inspirés par la segmentation amodale en 2D, nous introduisons cette nouvelle tâche dans le domaine 3D et proposons une approche pratique en deux étapes, abordant les défis clés que sont l'inférence de la géométrie 3D occluse, le maintien de la cohérence globale de la forme et la gestion de formes variées avec des données d'entraînement limitées. Premièrement, nous exploitons les techniques existantes de segmentation de parties 3D pour obtenir des segments de parties initiaux et incomplets. Deuxièmement, nous introduisons HoloPart, un nouveau modèle basé sur la diffusion, pour compléter ces segments en parties 3D complètes. HoloPart utilise une architecture spécialisée avec une attention locale pour capturer la géométrie fine des parties et une attention contextuelle globale pour assurer la cohérence de la forme globale. Nous introduisons de nouveaux benchmarks basés sur les ensembles de données ABO et PartObjaverse-Tiny et démontrons que HoloPart surpasse significativement les méthodes de complétion de formes de pointe. En intégrant HoloPart avec les techniques de segmentation existantes, nous obtenons des résultats prometteurs en segmentation amodale de parties 3D, ouvrant de nouvelles perspectives pour des applications dans l'édition de géométrie, l'animation et l'assignation de matériaux.

SoTA avec moins : Sélection d'échantillons guidée par MCTS pour un auto-amélioration efficace en données du raisonnement visuel
SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement

Apr 10

ByXiyao Wang, Zhengyuan Yang, Chao Feng, Hongjin Lu, Linjie Li, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang

Dans cet article, nous présentons une méthode efficace pour améliorer le raisonnement visuel en utilisant un nombre significativement réduit d'échantillons d'entraînement, en s'appuyant uniquement sur l'auto-amélioration sans distillation de connaissances. Notre idée clé est que la difficulté des données d'entraînement lors du réglage fin par renforcement (RFT) est cruciale. Des échantillons suffisamment difficiles peuvent considérablement renforcer les capacités de raisonnement, même lorsque le jeu de données est petit. Bien que cela soit intuitif, le principal défi reste de quantifier avec précision la difficulté des échantillons pour permettre un filtrage efficace des données. À cette fin, nous proposons une nouvelle manière de réutiliser la recherche arborescente Monte Carlo (MCTS) pour y parvenir. En partant de nos 70 000 échantillons d'entraînement open-source soigneusement sélectionnés, nous introduisons une méthode de sélection basée sur MCTS qui quantifie la difficulté des échantillons en fonction du nombre d'itérations nécessaires aux modèles de langage visuel (VLMs) pour résoudre chaque problème. Ce raisonnement explicite étape par étape dans MCTS oblige le modèle à réfléchir plus longtemps et identifie mieux les échantillons qui sont véritablement difficiles. Nous filtrons et conservons 11 000 échantillons pour effectuer le RFT sur Qwen2.5-VL-7B-Instruct, aboutissant à notre modèle final, ThinkLite-VL. Les résultats d'évaluation sur huit benchmarks montrent que ThinkLite-VL améliore la performance moyenne de Qwen2.5-VL-7B-Instruct de 7 %, en utilisant seulement 11 000 échantillons d'entraînement sans distillation de connaissances. Cela surpasse significativement tous les VLMs de raisonnement existants de niveau 7B, ainsi que nos bases de comparaison qui utilisent des méthodes de sélection classiques telles que le filtrage basé sur la précision. Notamment, sur MathVista, ThinkLite-VL-7B atteint une précision SoTA de 75,1, surpassant Qwen2.5-VL-72B, GPT-4o et O1. Notre code, données et modèle sont disponibles à l'adresse https://github.com/si0wang/ThinkLite-VL.

MOSAIC : Modélisation de l'IA Sociale pour la Dissémination et la Régulation de Contenu dans les Simulations Multi-Agents
MOSAIC: Modeling Social AI for Content Dissemination and Regulation in Multi-Agent Simulations

Apr 10

ByGenglin Liu, Salman Rahman, Elisa Kreiss, Marzyeh Ghassemi, Saadia Gabriel

Nous présentons MOSAIC, un nouveau cadre de simulation de réseau social open-source, où des agents de langage génératif prédisent les comportements des utilisateurs tels que l'appréciation, le partage et le signalement de contenu. Cette simulation combine des agents LLM avec un graphe social orienté pour analyser les comportements émergents de tromperie et mieux comprendre comment les utilisateurs déterminent la véracité du contenu social en ligne. En construisant des représentations d'utilisateurs à partir de personnalités diverses et granulaires, notre système permet des simulations multi-agents qui modélisent la diffusion de contenu et les dynamiques d'engagement à grande échelle. Dans ce cadre, nous évaluons trois stratégies différentes de modération de contenu avec une diffusion simulée de désinformation, et nous constatons qu'elles non seulement atténuent la propagation de contenu non factuel, mais augmentent également l'engagement des utilisateurs. De plus, nous analysons les trajectoires du contenu populaire dans nos simulations, et explorons si le raisonnement articulé des agents de simulation pour leurs interactions sociales correspond véritablement à leurs modèles collectifs d'engagement. Nous rendons notre logiciel de simulation open-source pour encourager des recherches supplémentaires en IA et en sciences sociales.

Vers la localisation visuelle de texte dans les modèles de langage multimodaux de grande échelle
Towards Visual Text Grounding of Multimodal Large Language Model

Apr 7

ByMing Li, Ruiyi Zhang, Jian Chen, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun

Malgré l'évolution actuelle des Modèles de Langage Multimodaux de Grande Taille (MLLMs), une limitation non négligeable persiste dans leur difficulté à ancrer visuellement le texte, en particulier dans les images riches en texte de documents. Les images de documents, telles que les formulaires scannés et les infographies, mettent en lumière des défis critiques en raison de leurs mises en page complexes et de leur contenu textuel. Cependant, les benchmarks actuels ne traitent pas pleinement ces défis, car ils se concentrent principalement sur l'ancrage visuel dans les images naturelles plutôt que dans les images de documents riches en texte. Ainsi, pour combler cette lacune, nous introduisons TRIG, une nouvelle tâche accompagnée d'un ensemble d'instructions nouvellement conçu pour évaluer et améliorer les capacités d'ancrage d'images riches en texte des MLLMs dans le cadre de questions-réponses sur des documents. Plus précisément, nous proposons un pipeline d'interaction OCR-LLM-humain pour créer 800 paires de questions-réponses annotées manuellement comme benchmark et un ensemble d'entraînement à grande échelle de 90$ de données synthétiques basées sur quatre ensembles de données diversifiés. Une évaluation approfondie de divers MLLMs sur notre benchmark proposé révèle des limitations substantielles dans leur capacité d'ancrage sur des images riches en texte. De plus, nous proposons deux méthodes TRIG simples et efficaces basées respectivement sur un réglage d'instructions général et un encastrement efficace plug-and-play. En affinant les MLLMs sur notre ensemble de données synthétiques, ils améliorent de manière prometteuse leurs capacités de raisonnement spatial et d'ancrage.

Contrôle Compass : Contrôle d'Orientation Multi-Objets pour la Génération d'Images à partir de Texte
Compass Control: Multi Object Orientation Control for Text-to-Image Generation

Apr 9

ByRishubh Parihar, Vaibhav Agrawal, Sachidanand VS, R. Venkatesh Babu

Les approches existantes pour contrôler les modèles de diffusion texte-image, bien que puissantes, ne permettent pas un contrôle explicite centré sur des objets 3D, tel qu'un contrôle précis de l'orientation des objets. Dans ce travail, nous abordons le problème du contrôle de l'orientation multi-objets dans les modèles de diffusion texte-image. Cela permet la génération de scènes multi-objets variées avec un contrôle précis de l'orientation pour chaque objet. L'idée clé est de conditionner le modèle de diffusion avec un ensemble de tokens de boussole sensibles à l'orientation, un pour chaque objet, ainsi que des tokens de texte. Un réseau encodeur léger prédit ces tokens de boussole en prenant l'orientation de l'objet comme entrée. Le modèle est entraîné sur un ensemble de données synthétiques de scènes générées de manière procédurale, chacune contenant un ou deux objets 3D sur un fond uni. Cependant, un entraînement direct de ce cadre entraîne un mauvais contrôle de l'orientation ainsi qu'un enchevêtrement entre les objets. Pour atténuer cela, nous intervenons dans le processus de génération et contraignons les cartes d'attention croisée de chaque token de boussole aux régions correspondant à son objet. Le modèle entraîné est capable d'atteindre un contrôle précis de l'orientation pour a) des objets complexes non vus pendant l'entraînement et b) des scènes multi-objets avec plus de deux objets, indiquant de fortes capacités de généralisation. De plus, lorsqu'il est combiné avec des méthodes de personnalisation, notre méthode contrôle précisément l'orientation du nouvel objet dans divers contextes. Notre méthode atteint un contrôle d'orientation et un alignement texte de pointe, quantifiés par des évaluations approfondies et une étude utilisateur.

Geo4D : Exploitation des générateurs vidéo pour la reconstruction géométrique de scènes 4D
Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction

Apr 10

ByZeren Jiang, Chuanxia Zheng, Iro Laina, Diane Larlus, Andrea Vedaldi

Nous présentons Geo4D, une méthode permettant de réutiliser des modèles de diffusion vidéo pour la reconstruction 3D monoculaire de scènes dynamiques. En exploitant le fort a priori dynamique capturé par ces modèles vidéo, Geo4D peut être entraîné en utilisant uniquement des données synthétiques tout en généralisant efficacement à des données réelles de manière zero-shot. Geo4D prédit plusieurs modalités géométriques complémentaires, à savoir des cartes de points, de profondeur et de rayons. Il utilise un nouvel algorithme d'alignement multi-modal pour aligner et fusionner ces modalités, ainsi que plusieurs fenêtres glissantes, au moment de l'inférence, obtenant ainsi une reconstruction 4D robuste et précise de vidéos longues. Des expériences approfondies sur plusieurs benchmarks montrent que Geo4D surpasse significativement les méthodes d'estimation de profondeur vidéo de pointe, y compris des méthodes récentes comme MonST3R, qui sont également conçues pour gérer des scènes dynamiques.

MonoPlace3D : Apprentissage du placement d'objets en 3D pour la détection monoculaire 3D
MonoPlace3D: Learning 3D-Aware Object Placement for 3D Monocular Detection

Apr 9

ByRishubh Parihar, Srinjay Sarkar, Sarthak Vora, Jogendra Kundu, R. Venkatesh Babu

Les détecteurs monoculaires 3D actuels sont limités par la diversité et l'échelle restreintes des ensembles de données du monde réel. Bien que l'augmentation des données soit certainement utile, il est particulièrement difficile de générer des données augmentées réalistes et conscientes de la scène pour des environnements extérieurs. La plupart des approches actuelles de génération de données synthétiques se concentrent sur l'apparence réaliste des objets grâce à des techniques de rendu améliorées. Cependant, nous montrons que la position et la manière dont les objets sont placés sont tout aussi cruciales pour entraîner des détecteurs monoculaires 3D efficaces. L'obstacle principal réside dans la détermination automatique des paramètres de placement réalistes des objets - incluant la position, les dimensions et l'alignement directionnel lors de l'introduction d'objets synthétiques dans des scènes réelles. Pour résoudre ce problème, nous introduisons MonoPlace3D, un système novateur qui prend en compte le contenu 3D de la scène pour créer des augmentations réalistes. Plus précisément, étant donné une scène de fond, MonoPlace3D apprend une distribution sur des boîtes englobantes 3D plausibles. Ensuite, nous rendons des objets réalistes et les plaçons selon les emplacements échantillonnés à partir de la distribution apprise. Notre évaluation approfondie sur deux ensembles de données standard, KITTI et NuScenes, démontre que MonoPlace3D améliore significativement la précision de plusieurs détecteurs monoculaires 3D existants tout en étant très efficace en termes de données.

TAPNext : Suivi de tout point (TAP) comme prédiction du prochain jeton
TAPNext: Tracking Any Point (TAP) as Next Token Prediction

Apr 8

ByArtem Zholus, Carl Doersch, Yi Yang, Skanda Koppula, Viorica Patraucean, Xu Owen He, Ignacio Rocco, Mehdi S. M. Sajjadi, Sarath Chandar, Ross Goroshin

Le suivi de tout point (TAP) dans une vidéo est un problème complexe en vision par ordinateur, avec de nombreuses applications démontrées en robotique, montage vidéo et reconstruction 3D. Les méthodes existantes pour le TAP reposent fortement sur des biais inductifs et des heuristiques spécifiques au suivi, limitant ainsi leur généralité et leur potentiel de mise à l'échelle. Pour relever ces défis, nous présentons TAPNext, une nouvelle approche qui reformule le TAP comme un décodage séquentiel de tokens masqués. Notre modèle est causal, effectue le suivi de manière purement en ligne et élimine les biais inductifs spécifiques au suivi. Cela permet à TAPNext de fonctionner avec une latence minimale et supprime la nécessité de fenêtrage temporel requise par de nombreux trackers de pointe existants. Malgré sa simplicité, TAPNext atteint une performance de suivi inédite parmi les trackers en ligne et hors ligne. Enfin, nous montrons que de nombreuses heuristiques de suivi largement utilisées émergent naturellement dans TAPNext grâce à un apprentissage de bout en bout.

Pangu Ultra : Repousser les limites des modèles de langage massivement denses sur les NPU Ascend
Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs

Apr 10

ByYichun Yin, Wenyong Huang, Kaikai Song, Yehui Tang, Xueyu Wu, Wei Guo, Peng Guo, Yaoyuan Wang, Xiaojun Meng, Yasheng Wang, Dong Li, Can Chen, Dandan Tu, Yin Li, Fisher Yu, Ruiming Tang, Yunhe Wang, Baojun Wang, Bin Wang, Bo Wang, Boxiao Liu, Changzheng Zhang, Duyu Tang, Fei Mi, Hui Jin, Jiansheng Wei, Jiarui Qin, Jinpeng Li, Jun Zhao, Liqun Deng, Lin Li, Minghui Xu, Naifu Zhang, Nianzu Zheng, Qiang Li, Rongju Ruan, Shengjun Cheng, Tianyu Guo, Wei He, Wei Li, Weiwen Liu, Wulong Liu, Xinyi Dai, Yonghan Dong, Yu Pan, Yue Li, Yufei Wang, Yujun Li, Yunsheng Ni, Zhe Liu, Zhenhe Zhang, Zhicheng Liu

Nous présentons Pangu Ultra, un modèle de langage de grande taille (LLM) doté de 135 milliards de paramètres et de modules Transformer denses, entraîné sur des unités de traitement neuronal (NPU) Ascend. Bien que le domaine des LLM ait connu des avancées sans précédent ces dernières années en repoussant les limites d'échelle et de capacités des modèles, l'entraînement d'un modèle à si grande échelle reste confronté à des défis d'optimisation et de système majeurs. Pour stabiliser le processus d'entraînement, nous proposons une normalisation en sandwich à échelle de profondeur, qui élimine efficacement les pics de perte lors de l'entraînement de modèles profonds. Nous pré-entraînons notre modèle sur 13,2 billions de tokens diversifiés et de haute qualité, et renforçons ses capacités de raisonnement lors d'une phase de post-entraînement. Pour réaliser un entraînement à si grande échelle de manière efficace, nous utilisons 8 192 NPU Ascend avec une série d'optimisations système. Les évaluations sur plusieurs benchmarks variés montrent que Pangu Ultra repousse significativement l'état de l'art des LLM denses tels que Llama 405B et Mistral Large 2, et obtient même des résultats compétitifs avec DeepSeek-R1, dont la structure de modèle sparse contient bien plus de paramètres. Notre exploration démontre que les NPU Ascend sont capables d'entraîner efficacement des modèles denses de plus de 100 milliards de paramètres. Notre modèle et notre système seront disponibles pour nos clients commerciaux.

Rapport Technique de Kimi-VL
Kimi-VL Technical Report

Apr 10

132