papers.description
Dans ce rapport, nous présentons Ovis-U1, un modèle unifié de 3 milliards de paramètres qui intègre la compréhension multimodale, la génération de texte à image et les capacités d'édition d'images. S'appuyant sur les fondations de la série Ovis, Ovis-U1 intègre un décodeur visuel basé sur la diffusion couplé à un raffineur de tokens bidirectionnel, permettant des tâches de génération d'images comparables aux modèles leaders tels que GPT-4o. Contrairement à certains modèles précédents qui utilisent un MLLM figé pour les tâches de génération, Ovis-U1 exploite une nouvelle approche de formation unifiée à partir d'un modèle de langage. Par rapport à une formation axée uniquement sur les tâches de compréhension ou de génération, la formation unifiée offre de meilleures performances, démontrant l'amélioration obtenue en intégrant ces deux tâches. Ovis-U1 obtient un score de 69,6 sur le benchmark académique multimodale OpenCompass, surpassant les modèles récents de pointe tels que Ristretto-3B et SAIL-VL-1.5-2B. En génération de texte à image, il excelle avec des scores de 83,72 et 0,89 sur les benchmarks DPG-Bench et GenEval, respectivement. Pour l'édition d'images, il atteint 4,00 et 6,42 sur les benchmarks ImgEdit-Bench et GEdit-Bench-EN, respectivement. En tant que version initiale de la série de modèles unifiés Ovis, Ovis-U1 repousse les limites de la compréhension, de la génération et de l'édition multimodales.
Les récentes avancées en apprentissage par renforcement ont montré que les modèles de langage peuvent développer un raisonnement sophistiqué grâce à un entraînement sur des tâches avec des récompenses vérifiables. Cependant, ces approches dépendent de paires problème-réponse sélectionnées par des humains et d'une ingénierie de récompense spécifique au domaine. Nous présentons SPIRAL, un cadre d'auto-jeu où les modèles apprennent en jouant des jeux à somme nulle en plusieurs tours contre des versions d'eux-mêmes en constante amélioration, éliminant ainsi le besoin de supervision humaine. Grâce à l'auto-jeu, SPIRAL génère un curriculum infini de problèmes de plus en plus difficiles, car les modèles doivent constamment s'adapter à des adversaires plus forts. Pour permettre cet entraînement à grande échelle, nous mettons en œuvre un système d'apprentissage par renforcement multi-agent et multi-tours entièrement en ligne et proposons l'estimation d'avantage conditionnée par rôle (RAE) pour stabiliser l'entraînement multi-agent. En utilisant SPIRAL, l'auto-jeu sur des jeux à somme nulle produit des capacités de raisonnement transférables. L'entraînement de Qwen3-4B-Base uniquement sur le Kuhn Poker améliore de 8,6 % en mathématiques et de 8,4 % en raisonnement général, surpassant l'apprentissage supervisé fin (SFT) sur 25 000 trajectoires de jeu expertes. L'analyse révèle que ce transfert se produit à travers trois schémas cognitifs : la décomposition systématique, le calcul de la valeur attendue et l'analyse cas par cas. L'entraînement multi-jeux (TicTacToe, Kuhn Poker, Simple Negotiation) améliore encore les performances, chaque jeu développant des forces de raisonnement distinctes. L'application de SPIRAL à un modèle de raisonnement puissant (DeepSeek-R1-Distill-Qwen-7B) peut encore conduire à une amélioration moyenne de 2,0 %. Ces résultats démontrent que les jeux à somme nulle développent naturellement des capacités de raisonnement transférables, mettant en lumière une direction prometteuse pour le développement autonome du raisonnement.
Nous présentons Calligrapher, un nouveau cadre basé sur la diffusion qui intègre de manière innovante la personnalisation avancée du texte avec la typographie artistique pour les applications de calligraphie numérique et de design. En abordant les défis du contrôle précis du style et de la dépendance aux données dans la personnalisation typographique, notre cadre intègre trois contributions techniques clés. Premièrement, nous développons un mécanisme d'auto-distillation qui exploite le modèle génératif texte-image pré-entraîné lui-même ainsi que le modèle de langage large pour construire automatiquement un benchmark de typographie centré sur le style. Deuxièmement, nous introduisons un cadre d'injection de style localisé via un encodeur de style entraînable, qui comprend à la fois des Qformer et des couches linéaires, pour extraire des caractéristiques de style robustes à partir d'images de référence. Un mécanisme de génération en contexte est également employé pour intégrer directement les images de référence dans le processus de débruîtage, améliorant ainsi l'alignement raffiné des styles cibles. Des évaluations quantitatives et qualitatives approfondies sur diverses polices et contextes de design confirment la reproduction précise des détails stylistiques complexes et le positionnement exact des glyphes par Calligrapher. En automatisant une typographie de haute qualité et visuellement cohérente, Calligrapher surpasse les modèles traditionnels, offrant aux praticiens créatifs des outils puissants pour l'art numérique, le branding et le design typographique contextuel.
La complexité quadratique des mécanismes d'attention complète constitue un goulot d'étranglement majeur pour les modèles de diffusion vidéo (VDMs) visant à générer des vidéos de longue durée et haute résolution. Bien que diverses méthodes d'attention parcimonieuse aient été proposées, beaucoup sont conçues comme des accélérateurs d'inférence sans entraînement ou ne capturent pas de manière optimale les caractéristiques spatio-temporelles uniques inhérentes aux données vidéo lorsqu'elles sont entraînées nativement. Cet article présente Video Mixture of Block Attention (VMoBA), un nouveau mécanisme d'attention parcimonieuse spécifiquement adapté aux VDMs. Motivé par une analyse approfondie des motifs d'attention dans les transformeurs vidéo pré-entraînés, qui a révélé une forte localité spatio-temporelle, une importance variable des requêtes et des niveaux de concentration spécifiques à chaque tête, VMoBA améliore le cadre original de MoBA avec trois modifications clés : (1) un schéma de partition récurrente par couches de blocs (1D-2D-3D) pour s'adapter dynamiquement à divers motifs d'attention spatio-temporels et améliorer l'efficacité ; (2) une sélection globale de blocs pour privilégier les interactions requête-clé les plus saillantes sur l'ensemble d'une tête d'attention ; et (3) une sélection de blocs basée sur un seuil pour déterminer dynamiquement le nombre de blocs traités en fonction de leur similarité cumulative. Des expériences approfondies démontrent que VMoBA accélère significativement l'entraînement des VDMs sur des séquences plus longues, atteignant une accélération de 2,92x en termes de FLOPs et de 1,48x en latence, tout en obtenant une qualité de génération comparable voire supérieure à celle de l'attention complète. De plus, VMoBA montre des performances compétitives en inférence sans entraînement, offrant une accélération de 2,40x en FLOPs et de 1,35x en latence pour la génération de vidéos haute résolution.
Les récents progrès dans l'estimation du flux optique ont privilégié la précision au détriment d'une consommation croissante de mémoire GPU, en particulier pour les entrées haute résolution (FullHD). Nous présentons MEMFOF, une méthode multi-images de flux optique économe en mémoire qui identifie un compromis favorable entre l'estimation multi-images et l'utilisation de la mémoire GPU. Notamment, MEMFOF ne nécessite que 2,09 Go de mémoire GPU lors de l'exécution pour des entrées 1080p, et 28,5 Go pendant l'entraînement, ce qui positionne de manière unique notre méthode pour être entraînée en résolution native 1080p sans avoir besoin de recadrage ou de sous-échantillonnage. Nous revisitons systématiquement les choix de conception des architectures de type RAFT, en intégrant des volumes de corrélation réduits et des protocoles d'entraînement haute résolution parallèlement à l'estimation multi-images, pour atteindre des performances de pointe sur plusieurs benchmarks tout en réduisant considérablement la surcharge mémoire. Notre méthode surpasse les alternatives plus gourmandes en ressources à la fois en précision et en efficacité d'exécution, validant sa robustesse pour l'estimation de flux à haute résolution. Au moment de la soumission, notre méthode se classe première sur le benchmark Spring avec un taux d'erreur de 1 pixel (1px) de 3,289, mène Sintel (clean) avec une erreur de point final (EPE) de 0,963, et obtient la meilleure erreur Fl-all sur KITTI-2015 à 2,94%. Le code est disponible à l'adresse https://github.com/msu-video-group/memfof.
L’entraînement de modèles de récompense robustes et généralisables pour les préférences visuelles humaines est essentiel pour aligner les modèles génératifs texte-image et texte-vidéo avec les intentions humaines. Cependant, les modèles de récompense actuels échouent souvent à généraliser, et le fine-tuning supervisé conduit à de la mémorisation, exigeant des pipelines d’annotation complexes. Bien que l’apprentissage par renforcement (RL), en particulier l’Optimisation Relative de Politique par Groupe (GRPO), améliore la généralisation, nous identifions un mode d’échec clé : une chute significative de la précision du raisonnement se produit lorsque la trace de raisonnement d’un modèle contredit celle d’un modèle vision-langage indépendant et figé (« écouteur ») évaluant la même sortie. Pour résoudre ce problème, nous introduisons un cadre GRPO augmenté par un écouteur. Ici, l’écouteur réévalue la chaîne de pensée du raisonneur pour fournir un score de confiance dense et calibré, influençant le signal de récompense RL. Cela encourage le raisonneur non seulement à répondre correctement, mais aussi à produire des explications convaincantes pour un modèle indépendant. Notre schéma de récompense guidé par l’écouteur atteint la meilleure précision sur le benchmark ImageReward (67,4 %), améliore significativement les performances hors distribution (OOD) sur un jeu de données de préférences humaines à grande échelle (1,2 million de votes, jusqu’à +6 % par rapport à un raisonneur naïf), et réduit les contradictions de raisonnement par rapport aux bases de référence GRPO et SFT fortes. Ces résultats démontrent que les récompenses basées sur l’écouteur offrent une voie évolutive et économe en données pour aligner les modèles vision-langage avec les préférences humaines nuancées. Nous publierons notre modèle de raisonnement ici : https://huggingface.co/alexgambashidze/qwen2.5vl_image_preference_reasoner.
Nous proposons un nouveau paradigme de conception de prompts qui remet en question les idées reçues dans l'utilisation des grands modèles de langage (LLM). Alors que la sagesse conventionnelle privilégie des instructions soigneusement élaborées et des démonstrations pour l'apprentissage en contexte (ICL), nous montrons que l'élagage de démonstrations aléatoires en des séquences apparemment incohérentes, ou "charabia", peut considérablement améliorer les performances sur diverses tâches. Notamment, ce "charabia" égale ou dépasse toujours les techniques d'optimisation automatique de prompts de pointe, obtenant des gains substantiels indépendamment de l'alignement du LLM. Cependant, découvrir une stratégie d'élagage efficace n'est pas trivial, car les méthodes d'attribution existantes et les algorithmes de compression de prompts ne parviennent pas à fournir des résultats robustes, sans parler de l'intuition humaine. À cet égard, nous proposons un cadre d'optimisation de prompts auto-découvrant, PromptQuine, un cadre de recherche évolutive qui recherche automatiquement la stratégie d'élagage en utilisant uniquement des régimes à faible volume de données. Tout comme la complexité émergente dans la nature—telle que la symbiose et l'auto-organisation—qui survient en réponse aux contraintes de ressources, notre cadre évolue et affine des prompts non conventionnels mais hautement efficaces en exploitant uniquement les tokens présents dans le contexte. Nous démontrons son efficacité sur des tâches de classification, de réponse à des questions à choix multiples, de génération et de raisonnement mathématique à travers différents LLM, tout en atteignant une efficacité de temps d'exécution décente. Nous espérons que nos résultats pourront guider les études mécanistes sur l'apprentissage en contexte, et servir d'appel à l'action pour ouvrir la voie à des algorithmes de recherche plus ouverts pour une utilisation plus efficace des LLM.
Le réglage fin des LLM est à la fois coûteux en calcul et en mémoire. Bien que les méthodes de réglage fin à efficacité paramétrique, telles que QLoRA et DoRA, réduisent le nombre de paramètres entraînables et diminuent l'utilisation de la mémoire, elles ne réduisent pas le coût computationnel. Dans certains cas, elles peuvent même ralentir le réglage fin. Dans cet article, nous présentons SparseLoRA, une méthode qui accélère le réglage fin des LLM grâce à la parcimonie contextuelle. Nous proposons un estimateur de parcimonie SVD léger et sans entraînement qui sélectionne dynamiquement un sous-ensemble parcimonieux de poids pour le calcul de la perte et du gradient. De plus, nous analysons et traitons systématiquement la sensibilité à travers les couches, les tokens et les étapes d'entraînement. Nos résultats expérimentaux montrent que SparseLoRA réduit le coût computationnel jusqu'à 2,2 fois et offre une accélération mesurée allant jusqu'à 1,6 fois, tout en maintenant la précision sur diverses tâches en aval, incluant le raisonnement de bon sens et arithmétique, la génération de code et le suivi d'instructions.
Les images de profondeur capturées par les capteurs Time-of-Flight (ToF) sont sujettes au bruit, nécessitant un débruitage pour des applications fiables en aval. Les travaux précédents se concentrent soit sur le traitement d'une seule image, soit effectuent un traitement multi-images sans tenir compte des variations de profondeur aux pixels correspondants entre les images, ce qui entraîne une incohérence temporelle et une ambiguïté spatiale indésirables. Dans cet article, nous proposons un nouveau réseau de débruitage de profondeur ToF exploitant la fusion de graphes invariants au mouvement pour améliorer simultanément la stabilité temporelle et la netteté spatiale. Plus précisément, malgré les décalages de profondeur entre les images, les structures de graphes présentent une auto-similarité temporelle, permettant une attention géométrique inter-images pour la fusion de graphes. Ensuite, en incorporant un a priori de lissage d'image sur le graphe fusionné et un terme de fidélité aux données dérivé de la distribution du bruit ToF, nous formulons un problème d'estimation a posteriori maximale pour le débruitage ToF. Enfin, la solution est dépliée en filtres itératifs dont les poids sont appris de manière adaptative à partir de l'attention géométrique informée par le graphe, produisant un réseau à la fois performant et interprétable. Les résultats expérimentaux démontrent que le schéma proposé atteint des performances de pointe en termes de précision et de cohérence sur le jeu de données synthétique DVToF et présente une généralisation robuste sur le jeu de données réel Kinectv2. Le code source sera disponible à l'adresse suivante : https://github.com/davidweidawang/GIGA-ToF{https://github.com/davidweidawang/GIGA-ToF}.
La capacité à traiter des informations provenant de multiples modalités et à raisonner étape par étape reste un défi critique dans l'avancement de l'intelligence artificielle. Cependant, les benchmarks de raisonnement existants se concentrent sur un raisonnement basé uniquement sur le texte, ou utilisent des questions multimodales qui peuvent être résolues en extrayant directement des informations d'une modalité non textuelle. Ainsi, le raisonnement complexe reste mal compris dans les domaines multimodaux. Ici, nous présentons MARBLE, un benchmark de raisonnement multimodal exigeant conçu pour évaluer rigoureusement les modèles de langage multimodaux (MLLMs) dans leur capacité à raisonner soigneusement étape par étape à travers des problèmes et environnements multimodaux complexes. MARBLE est composé de deux tâches hautement difficiles, M-Portal et M-Cube, qui nécessitent la conception et la compréhension de plans multi-étapes sous des contraintes spatiales, visuelles et physiques. Nous constatons que les MLLMs actuels obtiennent de faibles performances sur MARBLE — les 12 modèles avancés obtiennent des résultats proches du hasard sur M-Portal et une précision de 0 % sur M-Cube. Seulement dans des sous-tâches simplifiées, certains modèles surpassent le seuil aléatoire, indiquant que le raisonnement complexe reste un défi pour les MLLMs existants. De plus, nous montrons que la perception reste un goulot d'étranglement, où les MLLMs échouent parfois à extraire des informations des entrées visuelles. En mettant en lumière les limites des MLLMs, nous espérons que MARBLE stimulera le développement de la prochaine génération de modèles capables de raisonner et de planifier à travers de nombreuses étapes de raisonnement multimodal.
Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont démontré que les techniques de calcul au moment de l'inférence, telles que la mise à l'échelle au décodage et l'auto-affinage, peuvent considérablement améliorer les capacités de raisonnement sans recourir à des connaissances externes. Un facteur clé de ce succès est l'émergence de comportements d'auto-correction et d'auto-vérification, souvent suscités par l'apprentissage par renforcement (RL). Dans cet article, nous examinons si ces techniques d'inférence s'étendent efficacement aux modèles vision-langage (VLMs), en particulier ceux entraînés avec RL. Nous constatons que bien que les stratégies de décodage telles que le vote majoritaire et la sélection best-of-N avec auto-vérification améliorent toutes les performances de raisonnement des VLMs, les méthodes reposant sur la génération, comme la première, obtiennent des gains significativement plus élevés par rapport aux méthodes reposant sur la vérification, comme la seconde. De plus, le comportement d'auto-correction souvent associé aux modèles ajustés par RL, tel que le moment "aha", ne conduit pas à des gains mesurables. Nous montrons, grâce à une expérimentation approfondie dans le cadre de la mise à l'échelle au moment de l'inférence, une cause racine clé : les VLMs entraînés par RL manquent encore de capacités robustes d'auto-vérification à travers les modalités visuelles et textuelles.
Les agents basés sur des modèles de langage à grande échelle (LLMs) ont montré des perspectives prometteuses pour accomplir de manière autonome des tâches complexes en ingénierie logicielle. Par ailleurs, des progrès ont été réalisés dans le développement d'agents capables d'exécuter des parties du pipeline de recherche en apprentissage automatique et dans les sciences naturelles. Nous soutenons que l'extension de la recherche et sa mise en œuvre constituent une capacité essentielle pour de tels systèmes, et nous introduisons RExBench pour soutenir l'évaluation de cette capacité. RExBench est un benchmark composé de 12 tâches réalistes de mise en œuvre d'expériences de recherche visant à explorer des hypothèses de recherche qui n'ont pas encore été implémentées. Chaque tâche est conçue comme une extension à un article de recherche et à une base de code existants, accompagnée d'instructions rédigées par des experts du domaine. RExBench est robuste à la contamination des données et prend en charge une infrastructure d'évaluation automatique qui exécute les sorties des agents pour déterminer si les critères de succès sont atteints. Nous utilisons ce benchmark pour évaluer neuf agents LLM implémentés à l'aide de trois frameworks différents : aider, Claude Code et OpenHands. Nous constatons que tous les agents évalués échouent à implémenter de manière autonome la majorité des extensions. Bien que le taux de réussite s'améliore avec des indices supplémentaires rédigés par des humains, la meilleure performance dans ce contexte reste inférieure à 40 %. Cela indique que les agents actuels sont encore loin de pouvoir gérer des tâches réalistes d'extension de recherche sans un guidage humain substantiel.
Bien que la génération audio à partir de vidéo de bout en bout ait considérablement progressé, produire un audio haute fidélité qui capture authentiquement les nuances du contenu visuel reste un défi. À l'instar des professionnels des industries créatives, une telle génération nécessite un raisonnement sophistiqué sur des éléments tels que les dynamiques visuelles, les environnements acoustiques et les relations temporelles. Nous présentons ThinkSound, un cadre novateur qui exploite le raisonnement en chaîne de pensée (Chain-of-Thought, CoT) pour permettre une génération et un édition audio interactifs et progressifs pour les vidéos. Notre approche décompose le processus en trois étapes complémentaires : la génération de bruitage de base qui crée des paysages sonores sémantiquement cohérents, le raffinement interactif centré sur les objets grâce à des interactions utilisateur précises, et l'édition ciblée guidée par des instructions en langage naturel. À chaque étape, un modèle de langage multimodal génère un raisonnement CoT aligné contextuellement qui guide un modèle audio unifié. De plus, nous introduisons AudioCoT, un ensemble de données complet avec des annotations de raisonnement structuré qui établit des liens entre le contenu visuel, les descriptions textuelles et la synthèse sonore. Les expériences démontrent que ThinkSound atteint des performances de pointe en génération audio à partir de vidéo, tant en termes de métriques audio que de métriques CoT, et excelle dans le benchmark Movie Gen Audio hors distribution. La page de démonstration est disponible à l'adresse https://ThinkSound-Project.github.io.
La recherche urbaine englobe une variété de scénarios et de tâches qui nécessitent la compréhension de données multi-modales. Les méthodes actuelles se concentrent souvent sur des types de données spécifiques et manquent d'un cadre unifié dans le domaine urbain pour les traiter de manière exhaustive. Le succès récent des modèles de langage multi-modaux de grande envergure (MLLMs) offre une opportunité prometteuse pour surmonter cette limitation. Dans cet article, nous présentons UrbanLLaVA, un modèle de langage multi-modal conçu pour traiter simultanément ces quatre types de données et obtenir des performances solides dans diverses tâches urbaines par rapport aux MLLMs généraux. Dans UrbanLLaVA, nous commençons par constituer un ensemble de données d'instructions urbaines diversifié, couvrant à la fois des données urbaines mono-modales et inter-modales, allant de la vue locale à la vue globale de l'environnement urbain. En outre, nous proposons un cadre d'entraînement multi-étapes qui dissocie l'amélioration du raisonnement spatial de l'apprentissage des connaissances du domaine, améliorant ainsi la compatibilité et les performances en aval d'UrbanLLaVA dans diverses tâches urbaines. Enfin, nous étendons également les benchmarks existants pour la recherche urbaine afin d'évaluer les performances des MLLMs dans un large éventail de tâches urbaines. Les résultats expérimentaux provenant de trois villes démontrent qu'UrbanLLaVA surpasse les MLLMs open-source et propriétaires dans les tâches mono-modales et les tâches inter-modales complexes, et montre des capacités de généralisation robustes à travers les villes. Les codes sources et les données sont librement accessibles à la communauté de recherche via https://github.com/tsinghua-fib-lab/UrbanLLaVA.
Les modèles du monde sont devenus des outils indispensables pour l'intelligence incarnée, servant de simulateurs puissants capables de générer des vidéos robotiques réalistes tout en relevant les défis critiques de la pénurie de données. Cependant, les modèles du monde incarnés actuels présentent une conscience physique limitée, en particulier dans la modélisation de la géométrie 3D et de la dynamique du mouvement, ce qui entraîne une génération de vidéos irréalistes pour les scénarios robotiques riches en contacts. Dans cet article, nous présentons RoboScape, un modèle du monde unifié informé par la physique qui apprend conjointement la génération de vidéos RGB et les connaissances physiques dans un cadre intégré. Nous introduisons deux tâches clés d'apprentissage conjoint informées par la physique : la prédiction de profondeur temporelle qui améliore la cohérence géométrique 3D dans le rendu vidéo, et l'apprentissage de la dynamique des points clés qui encode implicitement les propriétés physiques (par exemple, la forme des objets et les caractéristiques des matériaux) tout en améliorant la modélisation des mouvements complexes. Des expériences approfondies démontrent que RoboScape génère des vidéos avec une fidélité visuelle et une plausibilité physique supérieures dans divers scénarios robotiques. Nous validons en outre son utilité pratique à travers des applications en aval, notamment l'entraînement de politiques robotiques avec des données générées et l'évaluation des politiques. Notre travail offre de nouvelles perspectives pour la construction de modèles du monde efficaces informés par la physique afin de faire progresser la recherche en intelligence incarnée. Le code est disponible à l'adresse suivante : https://github.com/tsinghua-fib-lab/RoboScape.
L'intégration d'outils externes via l'appel de fonctions est essentielle pour les applications pratiques des modèles de langage, mais la plupart des modèles multilingues manquent de capacités fiables d'utilisation d'outils dans des langues autres que l'anglais. Même les modèles multilingues de pointe peinent à déterminer quand utiliser des outils et à générer les sorties structurées nécessaires pour les appels de fonctions, montrant souvent une confusion linguistique lorsqu'ils sont sollicités dans des langues moins dotées en ressources. Ce travail présente une méthodologie pour adapter les modèles de langage existants afin de permettre une utilisation robuste d'outils dans n'importe quelle langue cible, en utilisant le bulgare comme étude de cas. L'approche implique un entraînement continu de la série de modèles BgGPT (2,6B, 9B, 27B paramètres) sur un nouvel ensemble de données bilingues de 10 035 exemples d'appels de fonctions conçus pour supporter des protocoles standardisés comme le MCP (Model Context Protocol). La recherche introduit TUCAN (Tool-Using Capable Assistant Navigator), qui atteint une amélioration allant jusqu'à 28,75 % dans la précision des appels de fonctions par rapport aux modèles de base, tout en préservant la compréhension fondamentale du langage, comme vérifié sur des benchmarks établis en bulgare. Au-delà des gains en précision, les modèles TUCAN démontrent un formatage de réponse prêt pour la production avec des appels de fonctions propres et analysables, contrastant avec les sorties verbeuses et incohérentes des modèles de base. Les modèles, le cadre d'évaluation et l'ensemble de données sont rendus publics pour permettre la réplication pour d'autres langues. Ce travail démontre une approche pratique pour étendre les capacités augmentées par des outils au-delà des systèmes centrés sur l'anglais.
Le fine-tuning de grands modèles de langage (LLM) pré-entraînés s'est révélé être une stratégie efficace pour atteindre des performances de pointe sur des tâches spécifiques comme la traduction automatique. Cependant, ce processus d'adaptation implique souvent de sacrifier des capacités polyvalentes, telles que le raisonnement conversationnel et le suivi d'instructions, ce qui limite l'utilité du système dans des applications réelles nécessitant un mélange de compétences. Dans cet article, nous présentons Tower+, une suite de modèles conçus pour offrir de solides performances à la fois en traduction et en capacités polyvalentes multilingues. Nous atteignons une frontière de Pareto entre la spécialisation en traduction et les capacités polyvalentes multilingues en introduisant une nouvelle méthode d'entraînement basée sur Tower (Alves et al., 2024), comprenant un pré-entraînement continu, un fine-tuning supervisé, une optimisation des préférences et un apprentissage par renforcement avec des récompenses vérifiables. À chaque étape de l'entraînement, nous générons et sélectionnons soigneusement des données pour renforcer les performances en traduction ainsi que sur des tâches polyvalentes impliquant la génération de code, la résolution de problèmes mathématiques et le suivi d'instructions générales. Nous développons des modèles à plusieurs échelles : 2B, 9B et 72B. Nos modèles plus petits surpassent souvent des LLM polyvalents open-weight et propriétaires de plus grande taille (par exemple, Llama 3.3 70B, GPT-4o). Notre plus grand modèle offre des performances de traduction de premier ordre pour les langues à ressources élevées et des résultats exceptionnels dans les évaluations multilingues Arena Hard ainsi que dans IF-MT, un benchmark que nous introduisons pour évaluer à la fois la traduction et le suivi d'instructions. Nos résultats mettent en évidence qu'il est possible de rivaliser avec les modèles de pointe en capacités générales tout en optimisant pour des domaines métier spécifiques, tels que la traduction et la localisation.
Dans cet article, nous présentons une technique simple et sans entraînement pour améliorer les performances des méthodes de décodage spéculatif (SpD) basées sur des modèles rédacteurs, en intégrant une tête de modélisation du langage (LM head) lors du processus de rédaction. Le décodage spéculatif basé sur des rédacteurs utilise un ou plusieurs modèles de langage plus petits, appelés rédacteurs ou modèles rédacteurs, pour échantillonner une séquence ou un arbre de jetons, suivi d'une vérification par un modèle de langage de base (LLM), le modèle cible, qui accepte un sous-ensemble comme génération valide. Comme il est généralement admis que le décodage spéculatif nécessite une correspondance un à un entre les vocabulaires du modèle cible et du modèle rédacteur, il est naturel de partager le vocabulaire entre eux, voire de partager la LM head comme dans EAGLE ou Medusa. Nous identifions d'abord que ce schéma d'échantillonnage de jetons rédacteurs contient intrinsèquement une surcharge d'inférence inutile lors de la rédaction, en particulier pour certains LLM cibles avec des vocabulaires très étendus. Ensuite, nous proposons une technique simple, VocabTrim, pour atténuer cette surcharge et améliorer la vitesse de génération dans un environnement limité par la mémoire. VocabTrim reconstruit la LM head du rédacteur pour contenir uniquement un ensemble limité de jetons, sélectionnés parmi les plus fréquemment échantillonnés dans le vocabulaire du modèle cible. Bien que la limitation du vocabulaire lors de la rédaction dégrade légèrement le taux d'acceptation, elle réduit significativement la latence de rédaction dans un processus limité par la mémoire, ce qui est souvent le cas sur les appareils périphériques, entraînant une accélération plus importante dans des conditions de mémoire limitée (MBSU). Nous montrons que notre méthode peut augmenter l'accélération en mémoire limitée pour les modèles Llama-3 sur Spec-Bench, spécifiquement de 16 % pour Llama-3.2-3B-Instruct.
Les métalentilles offrent un potentiel significatif pour l'imagerie computationnelle ultra-compacte, mais se heurtent à des défis liés à la dégradation optique complexe et aux difficultés de restauration computationnelle. Les méthodes existantes reposent généralement sur un étalonnage optique précis ou sur des ensembles de données appariées massifs, qui sont non triviaux pour les systèmes d'imagerie en conditions réelles. De plus, un manque de contrôle sur le processus d'inférence entraîne souvent des artefacts hallucinés indésirables. Nous introduisons le modèle de dégradation multipath diffusion pour la photographie à métalentille réglable, exploitant des a priori puissants sur les images naturelles issus de modèles pré-entraînés plutôt que de grands ensembles de données. Notre framework utilise des chemins de prompt positif, neutre et négatif pour équilibrer la génération de détails haute fréquence, la fidélité structurelle et la suppression de la dégradation spécifique aux métalentilles, accompagnés d'une augmentation de données pseudo-réelles. Un décodeur réglable permet des compromis contrôlés entre fidélité et qualité perceptuelle. Par ailleurs, un module d'attention adaptative à la dégradation spatialement variable (SVDA) modélise de manière adaptative la dégradation complexe induite par l'optique et le capteur. Enfin, nous concevons et construisons une MetaCamera à l'échelle millimétrique pour une validation en conditions réelles. Des résultats approfondis montrent que notre approche surpasse les méthodes de pointe, atteignant une reconstruction d'image à haute fidélité et netteté. Plus de matériaux : https://dmdiff.github.io/.