papers.description
Nous présentons CameraBench, un ensemble de données à grande échelle et un benchmark conçus pour évaluer et améliorer la compréhension des mouvements de caméra. CameraBench se compose d'environ 3 000 vidéos internet variées, annotées par des experts à travers un processus rigoureux de contrôle qualité en plusieurs étapes. L'une de nos contributions est une taxonomie des primitives de mouvement de caméra, conçue en collaboration avec des cinéastes. Nous constatons, par exemple, que certains mouvements comme le "suivi" (ou tracking) nécessitent une compréhension du contenu de la scène, comme les sujets en mouvement. Nous menons une étude humaine à grande échelle pour quantifier la performance des annotations humaines, révélant que l'expertise du domaine et la formation basée sur des tutoriels peuvent considérablement améliorer la précision. Par exemple, un novice peut confondre un zoom avant (un changement des paramètres intrinsèques) avec une translation vers l'avant (un changement des paramètres extrinsèques), mais peut être formé pour les différencier. En utilisant CameraBench, nous évaluons les modèles de Structure-from-Motion (SfM) et les modèles Vidéo-Langage (VLMs), constatant que les modèles SfM peinent à capturer les primitives sémantiques qui dépendent du contenu de la scène, tandis que les VLMs ont du mal à capturer les primitives géométriques qui nécessitent une estimation précise des trajectoires. Nous affinons ensuite un VLM génératif sur CameraBench pour combiner les avantages des deux approches et démontrons ses applications, notamment la génération de légendes augmentées par le mouvement, la réponse à des questions sur des vidéos et la recherche vidéo-texte. Nous espérons que notre taxonomie, notre benchmark et nos tutoriels stimuleront les efforts futurs vers l'objectif ultime de comprendre les mouvements de caméra dans n'importe quelle vidéo.
Nous présentons Skywork R1V2, un modèle de raisonnement multimodal de nouvelle génération et un bond en avant majeur par rapport à son prédécesseur, Skywork R1V. Au cœur de R1V2 se trouve un paradigme hybride d'apprentissage par renforcement qui harmonise les directives du modèle de récompense avec des stratégies basées sur des règles, abordant ainsi le défi de longue date consistant à équilibrer des capacités de raisonnement sophistiquées avec une généralisation étendue. Pour améliorer davantage l'efficacité de l'entraînement, nous proposons le mécanisme de Tampon d'Échantillons Sélectifs (Selective Sample Buffer, SSB), qui contrecarre efficacement le dilemme des « Avantages Disparus » inhérent à l'Optimisation de Politique Relative par Groupe (Group Relative Policy Optimization, GRPO) en priorisant les échantillons à haute valeur tout au long du processus d'optimisation. Notamment, nous observons que des signaux de renforcement excessifs peuvent induire des hallucinations visuelles—un phénomène que nous surveillons et atténuons systématiquement grâce à des seuils de récompense calibrés durant l'entraînement. Les résultats empiriques confirment les capacités exceptionnelles de R1V2, avec des performances de pointe telles que 62,6 sur OlympiadBench, 79,0 sur AIME2024, 63,6 sur LiveCodeBench et 74,0 sur MMMU. Ces résultats soulignent la supériorité de R1V2 par rapport aux modèles open-source existants et démontrent des progrès significatifs dans la réduction de l'écart de performance avec les systèmes propriétaires de premier plan, notamment Gemini 2.5 et OpenAI o4-mini. Les poids du modèle Skywork R1V2 ont été rendus publics pour promouvoir l'ouverture et la reproductibilité https://huggingface.co/Skywork/Skywork-R1V2-38B.
Le déploiement efficace des modèles de langage de grande taille (LLMs) à 1 bit est entravé par la présence d'outliers dans les activations, ce qui complique la quantification à faible précision. Nous présentons BitNet v2, un nouveau cadre permettant une quantification native des activations à 4 bits pour les LLMs à 1 bit. Pour résoudre le problème des outliers dans les activations des réseaux d'attention et feed-forward, nous proposons H-BitLinear, un module appliquant une transformation de Hadamard en ligne avant la quantification des activations. Cette transformation lisse les distributions d'activations abruptes en des formes plus gaussiennes, adaptées à une représentation à faible précision. Les expériences montrent que BitNet v2, entraîné à partir de zéro avec des activations à 8 bits, atteint des performances comparables à celles de BitNet b1.58. Surtout, BitNet v2 subit une dégradation minimale des performances lorsqu'il est entraîné avec des activations natives à 4 bits, réduisant ainsi significativement l'empreinte mémoire et le coût computationnel pour l'inférence par lots.
Évaluer les capacités de compréhension vidéo des systèmes d'IA multimodaux permet de mesurer efficacement leurs aptitudes à comprendre et à raisonner. La plupart des benchmarks d'évaluation vidéo se limitent à une seule langue, généralement l'anglais, et présentent principalement des vidéos ancrées dans des contextes culturels occidentaux. Dans cet article, nous présentons VideoVista-CulturalLingo, le premier benchmark d'évaluation vidéo conçu pour combler les écarts culturels, linguistiques et domainaux dans la compréhension vidéo. Notre travail se distingue des benchmarks existants de plusieurs manières : 1) Diversité culturelle, intégrant des cultures de Chine, d'Amérique du Nord et d'Europe ; 2) Multilinguisme, avec des questions présentées en chinois et en anglais, deux des langues les plus parlées ; et 3) Large domaine, incluant des vidéos provenant de centaines de domaines créés par l'homme. VideoVista-CulturalLingo contient 1 389 vidéos et 3 134 paires de questions-réponses, et nous avons évalué 24 modèles vidéo récents, open-source ou propriétaires. Les résultats des expériences montrent que : 1) Les modèles existants obtiennent de moins bons résultats sur les questions centrées sur la Chine que sur celles centrées sur l'Occident, en particulier celles liées à l'histoire chinoise ; 2) Les modèles open-source actuels présentent encore des limites dans la compréhension temporelle, notamment dans la tâche de Localisation d'Événements, avec un score maximum de seulement 45,2 % ; 3) Les modèles grand public montrent de solides performances sur les questions scientifiques générales, tandis que les modèles open-source affichent des performances faibles en mathématiques.
Nous présentons Kimi-Audio, un modèle de fondation audio open-source qui excelle dans la compréhension, la génération et la conversation audio. Nous détaillons les pratiques utilisées pour construire Kimi-Audio, incluant l'architecture du modèle, la curation des données, la recette d'entraînement, le déploiement de l'inférence et l'évaluation. Plus précisément, nous exploitons un tokenizer audio à 12,5 Hz, concevons une architecture novatrice basée sur un LLM (Large Language Model) avec des caractéristiques continues en entrée et des tokens discrets en sortie, et développons un détokenizer de streaming par morceaux basé sur le flow matching. Nous avons constitué un ensemble de données de pré-entraînement comprenant plus de 13 millions d'heures de données audio couvrant une large gamme de modalités, incluant la parole, les sons et la musique, et avons construit un pipeline pour générer des données post-entraînement de haute qualité et diversifiées. Initialisé à partir d'un LLM pré-entraîné, Kimi-Audio est continuellement pré-entraîné sur des données audio et textuelles avec plusieurs tâches soigneusement conçues, puis affiné pour supporter une variété de tâches liées à l'audio. Une évaluation approfondie montre que Kimi-Audio atteint des performances de pointe sur une série de benchmarks audio, incluant la reconnaissance vocale, la compréhension audio, la réponse à des questions audio et la conversation vocale. Nous publions les codes, les points de contrôle du modèle ainsi que les outils d'évaluation sur https://github.com/MoonshotAI/Kimi-Audio.
L'analyse multimodale du langage est un domaine en pleine évolution qui exploite plusieurs modalités pour améliorer la compréhension de la sémantique de haut niveau sous-jacente aux énoncés conversationnels humains. Malgré son importance, peu de recherches ont exploré la capacité des modèles de langage multimodaux de grande taille (MLLMs) à appréhender la sémantique au niveau cognitif. Dans cet article, nous présentons MMLA, un benchmark complet spécialement conçu pour combler cette lacune. MMLA comprend plus de 61 000 énoncés multimodaux issus de scénarios à la fois mis en scène et réels, couvrant six dimensions clés de la sémantique multimodale : l'intention, l'émotion, l'acte de dialogue, le sentiment, le style d'expression et le comportement communicationnel. Nous évaluons huit branches principales de LLMs et MLLMs en utilisant trois méthodes : l'inférence en zero-shot, le fine-tuning supervisé et le réglage par instruction. Des expériences approfondies révèlent que même les modèles fine-tunés n'atteignent qu'une précision d'environ 60 % à 70 %, mettant en lumière les limites des MLLMs actuels dans la compréhension du langage humain complexe. Nous pensons que MMLA servira de base solide pour explorer le potentiel des modèles de langage de grande taille dans l'analyse multimodale du langage et fournira des ressources précieuses pour faire progresser ce domaine. Les jeux de données et le code sont open-source à l'adresse https://github.com/thuiar/MMLA.
Le nombre de grands modèles de langage (LLM) pré-entraînés augmente régulièrement, bien que la majorité soit principalement conçue pour la langue anglaise. Bien que les LLM de pointe puissent gérer d'autres langues, en raison de la contamination linguistique ou d'un certain degré de données de pré-entraînement multilingues, ils ne sont pas optimisés pour les langues non anglaises, ce qui entraîne un encodage inefficace (forte "fertilité" des tokens) et une vitesse d'inférence plus lente. Dans ce travail, nous comparons en détail diverses techniques d'adaptation de vocabulaire pour optimiser les LLM anglais pour la langue italienne, et proposons l'Adaptation de Vocabulaire par Alignement Sémantique (SAVA), une méthode novatrice qui exploite la cartographie neuronale pour la substitution de vocabulaire. SAVA obtient des performances compétitives sur plusieurs tâches en aval, améliorant les stratégies d'alignement ancrées. Nous adaptons deux LLM : Mistral-7b-v0.1, réduisant la fertilité des tokens de 25\%, et Llama-3.1-8B, optimisant le vocabulaire et réduisant le nombre de paramètres d'un milliard. Nous montrons qu'après l'adaptation du vocabulaire, ces modèles peuvent retrouver leurs performances avec une étape relativement limitée d'entraînement continu sur la langue cible. Enfin, nous testons les capacités des modèles adaptés sur diverses tâches à choix multiples et génératives.
L'attention parcimonieuse offre une stratégie prometteuse pour étendre les capacités de contexte long dans les modèles de langage Transformer (LLM). Cependant, sa viabilité, ses compromis efficacité-précision et les études systématiques de mise à l'échelle restent inexplorés. Pour combler cette lacune, nous effectuons une comparaison minutieuse des méthodes d'attention parcimonieuse sans entraînement à différentes échelles de modèles, longueurs de séquences et niveaux de parcimonie sur une collection variée de tâches à séquences longues, y compris des tâches novatrices qui reposent sur le langage naturel tout en restant contrôlables et faciles à évaluer. Sur la base de nos expériences, nous rapportons une série de conclusions clés : 1) Une analyse isoFLOPS révèle que pour les séquences très longues, des modèles plus grands et hautement parcimonieux sont préférables à des modèles plus petits et denses. 2) Le niveau de parcimonie atteignable tout en garantissant statistiquement la préservation de la précision est plus élevé pendant le décodage que pendant le préremplissage, et il est corrélé à la taille du modèle dans le premier cas. 3) Il n'existe pas de stratégie claire qui fonctionne le mieux pour toutes les tâches et phases, avec des unités de parcimonie ou une adaptabilité budgétaire différentes nécessaires selon les scénarios. Même des niveaux de parcimonie modérés entraînent souvent une dégradation significative des performances sur au moins une tâche, soulignant que l'attention parcimonieuse n'est pas une solution universelle. 4) Nous introduisons et validons de nouvelles lois de mise à l'échelle spécifiquement adaptées à l'attention parcimonieuse, fournissant des preuves que nos conclusions sont susceptibles de rester valables au-delà de notre gamme d'expériences. Grâce à ces insights, nous démontrons que l'attention parcimonieuse est un outil clé pour améliorer les capacités des LLM Transformer à traiter des séquences plus longues, mais nécessite une évaluation minutieuse des compromis pour les applications sensibles aux performances.
Nous présentons une nouvelle génération de modèles de raisonnement de petite taille pour le RAG, la recherche et la synthèse de sources. Pleias-RAG-350m et Pleias-RAG-1B sont pré-entraînés sur un vaste ensemble de données synthétiques simulant la récupération d'une grande variété de sources ouvertes multilingues issues du Common Corpus. Ils offrent un support natif pour les citations et l'ancrage avec des citations littérales, tout en réintégrant de multiples fonctionnalités associées aux workflows RAG, telles que le routage des requêtes, la reformulation des requêtes et le réordonnancement des sources. Pleias-RAG-350m et Pleias-RAG-1B surpassent les SLM (Small Language Models) de moins de 4 milliards de paramètres sur les benchmarks RAG standardisés (HotPotQA, 2wiki) et sont compétitifs avec des modèles plus grands et populaires, notamment Qwen-2.5-7B, Llama-3.1-8B et Gemma-3-4B. À ce jour, ce sont les seuls SLM à maintenir des performances RAG cohérentes à travers les principales langues européennes et à garantir un ancrage systématique des références pour les affirmations. Grâce à leur taille réduite, leur facilité de déploiement sur des infrastructures contraintes et leur factualité accrue par conception, ces modèles ouvrent la voie à de nouveaux cas d'utilisation pour l'IA générative.
Nous proposons d'entraîner un modèle de génération de vidéos personnalisées centré sur un sujet spécifique en découplant l'apprentissage spécifique au sujet de la dynamique temporelle, sans réglage supplémentaire en mode zero-shot. Une méthode traditionnelle pour la personnalisation de vidéos sans réglage repose souvent sur de grands ensembles de données vidéo annotées, qui sont coûteux en calcul et nécessitent une annotation extensive. Contrairement à cette approche précédente, nous introduisons l'utilisation directe d'un ensemble de données de personnalisation d'images pour entraîner des modèles de personnalisation de vidéos, en factorisant cette personnalisation en deux étapes : (1) l'injection d'identité via un ensemble de données de personnalisation d'images et (2) la préservation de la modélisation temporelle avec un petit ensemble de vidéos non annotées grâce à une méthode d'entraînement image-à-vidéo. De plus, nous employons une suppression aléatoire de tokens d'images avec une initialisation aléatoire d'images lors du réglage fin image-à-vidéo pour atténuer le problème de copier-coller. Pour renforcer l'apprentissage, nous introduisons un basculement stochastique lors de l'optimisation conjointe des caractéristiques spécifiques au sujet et temporelles, atténuant ainsi l'oubli catastrophique. Notre méthode atteint une forte cohérence du sujet et une grande évolutivité, surpassant les modèles existants de personnalisation de vidéos en mode zero-shot, démontrant ainsi l'efficacité de notre cadre.
Le raisonnement efficace reste un défi central pour les grands modèles de langage (LLMs) dans le domaine financier, où les tâches nécessitent souvent des connaissances spécifiques au domaine, des calculs numériques précis et un strict respect des règles de conformité. Nous proposons DianJin-R1, un cadre renforcé en raisonnement conçu pour relever ces défis grâce à une supervision augmentée par le raisonnement et à l'apprentissage par renforcement. Au cœur de notre approche se trouve DianJin-R1-Data, un ensemble de données de haute qualité construit à partir de CFLUE, FinQA et d'un corpus propriétaire de conformité (Chinese Compliance Check, CCC), combinant divers scénarios de raisonnement financier avec des annotations vérifiées. Nos modèles, DianJin-R1-7B et DianJin-R1-32B, sont affinés à partir de Qwen2.5-7B-Instruct et Qwen2.5-32B-Instruct en utilisant un format structuré qui génère à la fois les étapes de raisonnement et les réponses finales. Pour affiner davantage la qualité du raisonnement, nous appliquons l'Optimisation Relative de Politique de Groupe (Group Relative Policy Optimization, GRPO), une méthode d'apprentissage par renforcement qui intègre des signaux de récompense doubles : l'un encourageant les sorties structurées et l'autre récompensant l'exactitude des réponses. Nous évaluons nos modèles sur cinq benchmarks : trois ensembles de données financières (CFLUE, FinQA et CCC) et deux benchmarks de raisonnement général (MATH-500 et GPQA-Diamond). Les résultats expérimentaux montrent que les modèles DianJin-R1 surpassent systématiquement leurs homologues sans raisonnement, en particulier sur les tâches financières complexes. De plus, sur l'ensemble de données CCC du monde réel, nos modèles de raisonnement en un seul appel égalent ou surpassent même les performances des systèmes multi-agents qui nécessitent un coût de calcul significativement plus élevé. Ces résultats démontrent l'efficacité de DianJin-R1 pour améliorer le raisonnement financier grâce à une supervision structurée et un apprentissage aligné sur les récompenses, offrant une solution évolutive et pratique pour les applications réelles.
Étant donné un seul exemple étiqueté, la segmentation en contexte vise à segmenter les objets correspondants. Ce cadre, connu sous le nom de segmentation en un coup dans l'apprentissage en peu de coups, explore la capacité de généralisation du modèle de segmentation et a été appliqué à diverses tâches de vision, notamment la compréhension de scènes et l'édition d'images/vidéos. Bien que les modèles récents de type Segment Anything (SAM) aient atteint des résultats de pointe en segmentation interactive, ces approches ne sont pas directement applicables à la segmentation en contexte. Dans ce travail, nous proposons la méthode Dual Consistency SAM (DC-SAM) basée sur l'ajustement par prompts pour adapter SAM et SAM2 à la segmentation en contexte d'images et de vidéos. Nos idées clés consistent à améliorer les caractéristiques de l'encodeur de prompts de SAM en segmentation en fournissant des prompts visuels de haute qualité. Lors de la génération d'un masque préalable, nous fusionnons les caractéristiques de SAM pour mieux aligner l'encodeur de prompts. Ensuite, nous concevons une attention croisée cyclique sur les caractéristiques fusionnées et les prompts visuels initiaux. Puis, une conception à double branche est proposée en utilisant les prompts positifs et négatifs discriminatifs dans l'encodeur de prompts. De plus, nous concevons une stratégie d'entraînement simple de type masque-tube pour intégrer notre méthode de double cohérence dans le tube de masques. Bien que le DC-SAM proposé soit principalement conçu pour les images, il peut être étendu de manière transparente au domaine vidéo avec le support de SAM2. Compte tenu de l'absence de segmentation en contexte dans le domaine vidéo, nous avons manuellement sélectionné et construit le premier benchmark à partir de jeux de données existants de segmentation vidéo, nommé In-Context Video Object Segmentation (IC-VOS), pour mieux évaluer la capacité en contexte du modèle. Des expériences approfondies démontrent que notre méthode atteint 55,5 (+1,4) mIoU sur COCO-20i, 73,0 (+1,1) mIoU sur PASCAL-5i, et un score J&F de 71,52 sur le benchmark IC-VOS proposé. Notre code source et benchmark sont disponibles à l'adresse https://github.com/zaplm/DC-SAM.