Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'apprentissage par renforcement multi-agent (MARL) démontre des progrès significatifs dans la résolution de problèmes multi-agents coopératifs et compétitifs dans divers environnements. L'un des principaux défis du MARL est la nécessité de prédire explicitement le comportement des agents pour parvenir à la coopération. Pour résoudre ce problème, nous proposons le Transformateur de Mémoire Récurrente Partagée (SRMT) qui étend les transformateurs de mémoire aux paramètres multi-agents en regroupant et diffusant globalement les mémoires de travail individuelles, permettant aux agents d'échanger des informations implicitement et de coordonner leurs actions. Nous évaluons le SRMT sur le problème de recherche de chemin multi-agent partiellement observable dans une tâche de navigation en goulot d'étranglement qui nécessite que les agents passent par un couloir étroit et sur un ensemble de tâches de référence POGEMA. Dans la tâche du goulot d'étranglement, le SRMT surpasse de manière constante diverses lignes de base d'apprentissage par renforcement, en particulier en cas de récompenses rares, et généralise efficacement à des couloirs plus longs que ceux observés pendant l'entraînement. Sur les cartes POGEMA, y compris les labyrinthes, aléatoires et MovingAI, le SRMT est compétitif avec les récents algorithmes MARL, hybrides et basés sur la planification. Ces résultats suggèrent que l'incorporation de mémoire récurrente partagée dans les architectures basées sur les transformateurs peut améliorer la coordination dans les systèmes multi-agents décentralisés. Le code source pour l'entraînement et l'évaluation est disponible sur GitHub: https://github.com/Aloriosa/srmt.
La génération de vidéos a connu des avancées significatives grâce aux techniques de flux rectifié, mais des problèmes tels que des mouvements non fluides et un désalignement entre les vidéos et les instructions persistent. Dans ce travail, nous développons un pipeline systématique qui exploite les retours humains pour atténuer ces problèmes et affiner le modèle de génération de vidéos. Plus précisément, nous commençons par construire un ensemble de données de préférences humaines à grande échelle axé sur les modèles modernes de génération de vidéos, en incorporant des annotations par paires à travers plusieurs dimensions. Nous introduisons ensuite VideoReward, un modèle de récompense vidéo multidimensionnel, et examinons comment les annotations et divers choix de conception impactent son efficacité de récompense. Dans une perspective unifiée d'apprentissage par renforcement visant à maximiser la récompense avec une régularisation KL, nous introduisons trois algorithmes d'alignement pour les modèles basés sur le flux en étendant ceux des modèles de diffusion. Ceux-ci incluent deux stratégies à l'entraînement : l'optimisation directe des préférences pour le flux (Flow-DPO) et la régression pondérée par récompense pour le flux (Flow-RWR), ainsi qu'une technique au moment de l'inférence, Flow-NRG, qui applique directement un guidage de récompense aux vidéos bruyantes. Les résultats expérimentaux indiquent que VideoReward surpasse significativement les modèles de récompense existants, et que Flow-DPO démontre des performances supérieures par rapport à Flow-RWR et aux méthodes standard de fine-tuning supervisé. De plus, Flow-NRG permet aux utilisateurs d'attribuer des poids personnalisés à plusieurs objectifs lors de l'inférence, répondant ainsi aux besoins de qualité vidéo personnalisés. Page du projet : https://gongyeliu.github.io/videoalign.
Nous présentons Sigma, un modèle de langage large efficace spécialisé pour le domaine système, renforcé par une architecture novatrice comprenant une attention DiffQKV, et pré-entraîné sur nos données du domaine système collectées méticuleusement. L'attention DiffQKV améliore significativement l'efficacité d'inférence de Sigma en optimisant différemment les composants de Requête (Q), Clé (K) et Valeur (V) dans le mécanisme d'attention, en fonction de leurs impacts variables sur les performances du modèle et les indicateurs d'efficacité. Plus précisément, nous (1) menons des expériences approfondies qui démontrent la sensibilité variable du modèle à la compression des composants K et V, conduisant au développement de KV compressés de manière différentielle, et (2) proposons un Q augmenté pour étendre la dimension de la tête Q, ce qui améliore la capacité de représentation du modèle avec des impacts minimes sur la vitesse d'inférence. Des analyses théoriques et empiriques rigoureuses révèlent que l'attention DiffQKV améliore significativement l'efficacité, atteignant jusqu'à une amélioration de 33,36% en vitesse d'inférence par rapport à l'attention de requête groupée conventionnelle (GQA) dans des scénarios à long contexte. Nous pré-entraînons Sigma sur 6T tokens provenant de diverses sources, y compris 19,5B de données du domaine système que nous collectons soigneusement et 1T de tokens de données synthétisées et réécrites. Dans des domaines généraux, Sigma atteint des performances comparables à d'autres modèles de pointe. Dans le domaine système, nous introduisons le premier banc d'essai complet AIMicius, où Sigma démontre des performances remarquables sur toutes les tâches, surpassant significativement GPT-4 avec une amélioration absolue allant jusqu'à 52,5%.
Le raisonnement en chaîne de pensées (CoT) a été largement exploré dans de grands modèles pour aborder des tâches complexes de compréhension. Cependant, il reste encore une question ouverte de savoir si de telles stratégies peuvent être appliquées à la vérification et au renforcement des scénarios de génération d'images. Dans cet article, nous présentons la première investigation complète du potentiel du raisonnement CoT pour améliorer la génération d'images autorégressive. Nous nous concentrons sur trois techniques : l'échelle de calcul au moment du test pour la vérification, l'alignement des préférences du modèle avec l'Optimisation Directe des Préférences (DPO), et l'intégration de ces techniques pour des effets complémentaires. Nos résultats démontrent que ces approches peuvent être efficacement adaptées et combinées pour améliorer significativement les performances de génération d'images. De plus, étant donné le rôle crucial des modèles de récompense dans nos découvertes, nous proposons le Modèle de Récompense d'Évaluation Potentielle (PARM) et PARM++, spécialisés pour la génération d'images autorégressive. PARM évalue de manière adaptative chaque étape de génération grâce à une approche d'évaluation potentielle, fusionnant les forces des modèles de récompense existants, et PARM++ introduit en outre un mécanisme de réflexion pour corriger automatiquement l'image générée insatisfaisante. En utilisant nos stratégies de raisonnement étudiées, nous améliorons un modèle de base, Show-o, pour obtenir des résultats supérieurs, avec une amélioration significative de +24% sur le banc d'essai GenEval, dépassant Stable Diffusion 3 de +15%. Nous espérons que notre étude apporte des perspectives uniques et ouvre une nouvelle voie pour intégrer le raisonnement CoT à la génération d'images autorégressive. Le code et les modèles sont disponibles sur https://github.com/ZiyuGuo99/Image-Generation-CoT
Les humains acquièrent des connaissances à travers trois étapes cognitives : la perception de l'information, la compréhension des connaissances et l'adaptation des connaissances pour résoudre des problèmes nouveaux. Les vidéos servent de moyen efficace pour ce processus d'apprentissage, facilitant une progression à travers ces étapes cognitives. Cependant, les références vidéo existantes échouent à évaluer systématiquement les capacités d'acquisition de connaissances des Grands Modèles Multimodaux (LMMs). Pour combler cette lacune, nous introduisons Video-MMMU, un banc d'essai multi-modal, multi-disciplinaire conçu pour évaluer la capacité des LMMs à acquérir et utiliser des connaissances à partir de vidéos. Video-MMMU propose une collection sélectionnée de 300 vidéos de niveau expert et 900 questions annotées par des humains dans six disciplines, évaluant l'acquisition de connaissances à travers des paires question-réponse alignées sur les étapes : Perception, Compréhension et Adaptation. Une métrique de gain de connaissance proposée, Δconnaissance, quantifie l'amélioration des performances après la visualisation de la vidéo. L'évaluation des LMMs révèle une baisse abrupte des performances à mesure que les exigences cognitives augmentent et souligne un écart significatif entre l'acquisition de connaissances humaines et modèles, mettant en évidence le besoin de méthodes pour améliorer la capacité des LMMs à apprendre et s'adapter à partir de vidéos.
Malgré les avancées significatives dans les grands modèles multimodaux vidéo (video-LMMs), la réalisation d'un ancrage temporel efficace dans les vidéos longues reste un défi pour les modèles existants. Pour répondre à cette limitation, nous proposons l'Optimisation des Préférences Temporelles (TPO), un nouveau cadre de post-entraînement conçu pour améliorer les capacités d'ancrage temporel des video-LMMs grâce à l'apprentissage des préférences. TPO adopte une approche d'auto-entraînement qui permet aux modèles de différencier les réponses temporelles bien ancrées des réponses moins précises en exploitant des ensembles de données de préférences organisés à deux granularités : l'ancrage temporel localisé, qui se concentre sur des segments vidéo spécifiques, et l'ancrage temporel complet, qui capture les dépendances temporelles étendues à travers l'ensemble des séquences vidéo. En optimisant sur ces ensembles de données de préférences, TPO améliore significativement la compréhension temporelle tout en réduisant la dépendance aux données annotées manuellement. Des expériences approfondies sur trois référentiels d'évaluation de la compréhension vidéo longue durée--LongVideoBench, MLVU, et Video-MME--démontrent l'efficacité de TPO sur deux video-LMMs de pointe. Notamment, LLaVA-Video-TPO s'impose comme le modèle 7B leader sur le référentiel Video-MME, soulignant le potentiel de TPO en tant que solution évolutive et efficace pour faire progresser le raisonnement temporel dans la compréhension vidéo longue durée. Page du projet : https://ruili33.github.io/tpo_website.
Avec le développement rapide des modèles de diffusion, les modèles de texte vers image (T2I) ont réalisé des progrès significatifs, démontrant des capacités impressionnantes en matière de suivi de consignes et de génération d'images. Des modèles récemment lancés tels que FLUX.1 et Idéogramme2.0, ainsi que d'autres comme Dall-E3 et Diffusion Stable 3, ont montré des performances exceptionnelles dans diverses tâches complexes, soulevant des questions sur la possibilité que les modèles T2I évoluent vers une applicabilité polyvalente. Au-delà de la génération d'images traditionnelle, ces modèles présentent des capacités dans divers domaines, notamment la génération contrôlable, l'édition d'images, la vidéo, l'audio, la 3D et la génération de mouvements, ainsi que des tâches de vision par ordinateur telles que la segmentation sémantique et l'estimation de profondeur. Cependant, les cadres d'évaluation actuels sont insuffisants pour évaluer de manière exhaustive les performances de ces modèles dans des domaines en expansion. Pour évaluer rigoureusement ces modèles, nous avons développé IMAGINE-E et testé six modèles de premier plan : FLUX.1, Idéogramme2.0, Midjourney, Dall-E3, Diffusion Stable 3 et Jimeng. Notre évaluation est divisée en cinq domaines clés : génération de sortie structurée, réalisme et cohérence physique, génération de domaine spécifique, génération de scénarios complexes et tâches de création multi-style. Cette évaluation complète met en lumière les forces et les limites de chaque modèle, en particulier les performances exceptionnelles de FLUX.1 et Idéogramme2.0 dans les tâches structurées et de domaine spécifique, soulignant les applications en expansion et le potentiel des modèles T2I en tant qu'outils AI fondamentaux. Cette étude offre des perspectives précieuses sur l'état actuel et la trajectoire future des modèles T2I alors qu'ils évoluent vers une utilisabilité polyvalente. Les scripts d'évaluation seront publiés sur https://github.com/jylei16/Imagine-e.
Les grands modèles de langage (LLM) ont récemment démontré un succès remarquable en matière de raisonnement mathématique. Malgré les progrès réalisés dans des méthodes telles que la génération de chaînes de pensées et l'échantillonnage d'auto-cohérence, ces avancées se concentrent souvent sur la correction finale sans garantir que le processus de raisonnement sous-jacent soit cohérent et fiable. Cet article présente Step-KTO, un cadre d'entraînement qui combine des retours binaires au niveau du processus et du résultat pour guider les LLM vers des trajectoires de raisonnement plus fiables. En fournissant des évaluations binaires à la fois pour les étapes de raisonnement intermédiaires et la réponse finale, Step-KTO encourage le modèle à suivre des progressions logiques plutôt que de se fier à des raccourcis superficiels. Nos expériences sur des benchmarks mathématiques complexes montrent que Step-KTO améliore significativement à la fois la précision de la réponse finale et la qualité des étapes de raisonnement intermédiaires. Par exemple, sur l'ensemble de données MATH-500, Step-KTO obtient une amélioration notable de la précision Pass@1 par rapport à des références solides. Ces résultats soulignent la promesse de l'intégration de retours de processus étape par étape dans l'entraînement des LLM, ouvrant la voie à des capacités de raisonnement plus interprétables et fiables.
Les algorithmes récents d'inpainting vidéo intègrent la propagation des pixels basée sur le flux avec la génération basée sur les transformers pour exploiter le flux optique afin de restaurer les textures et les objets en utilisant les informations des images voisines, tout en complétant les régions masquées à l'aide des Transformers visuels. Cependant, ces approches rencontrent souvent des problèmes de flou et d'incohérences temporelles lorsqu'elles traitent de grandes zones masquées, soulignant ainsi le besoin de modèles aux capacités génératives améliorées. Récemment, les modèles de diffusion ont émergé comme une technique de premier plan dans la génération d'images et de vidéos en raison de leurs performances impressionnantes. Dans cet article, nous présentons DiffuEraser, un modèle d'inpainting vidéo basé sur une diffusion stable, conçu pour remplir les régions masquées avec plus de détails et des structures plus cohérentes. Nous incorporons des informations antérieures pour fournir une initialisation et une conditionnement faible, ce qui aide à atténuer les artefacts bruyants et à supprimer les hallucinations. De plus, pour améliorer la cohérence temporelle lors de l'inférence sur de longues séquences, nous élargissons les champs réceptifs temporels à la fois du modèle antérieur et de DiffuEraser, et renforçons davantage la cohérence en exploitant la propriété de lissage temporel des modèles de diffusion vidéo. Les résultats expérimentaux démontrent que notre méthode proposée surpasse les techniques de pointe à la fois en termes de complétude du contenu et de cohérence temporelle tout en maintenant une efficacité acceptable.
Des préoccupations concernant les hallucinations dans les Modèles de Langage de Grande Taille (LLMs) ont été soulevées par les chercheurs, cependant leur potentiel dans des domaines où la créativité est essentielle, tels que la découverte de médicaments, mérite d'être exploré. Dans cet article, nous formulons l'hypothèse que les hallucinations peuvent améliorer les LLMs dans la découverte de médicaments. Pour vérifier cette hypothèse, nous utilisons les LLMs pour décrire la chaîne SMILES des molécules en langage naturel, puis incorporons ces descriptions comme partie de l'invite pour aborder des tâches spécifiques dans la découverte de médicaments. Évaluées sur sept LLMs et cinq tâches de classification, nos résultats confirment l'hypothèse : les LLMs peuvent obtenir de meilleures performances avec du texte contenant des hallucinations. Notamment, Llama-3.1-8B obtient un gain de 18,35% en ROC-AUC par rapport à la ligne de base sans hallucination. De plus, les hallucinations générées par GPT-4o offrent les améliorations les plus cohérentes à travers les modèles. De plus, nous menons des analyses empiriques et une étude de cas pour enquêter sur les facteurs clés affectant les performances et les raisons sous-jacentes. Notre recherche met en lumière l'utilisation potentielle des hallucinations pour les LLMs et offre de nouvelles perspectives pour la recherche future exploitant les LLMs dans la découverte de médicaments.
Les modèles de génération texte-image peuvent créer des images de haute qualité à partir de descriptions d'entrée. Cependant, ils rencontrent des difficultés pour assurer la génération cohérente des exigences de préservation de l'identité pour la narration. Les approches existantes à ce problème nécessitent généralement un entraînement intensif sur de grands ensembles de données ou des modifications supplémentaires des architectures de modèles originales. Cela limite leur applicabilité à travers différents domaines et diverses configurations de modèles de diffusion. Dans cet article, nous observons d'abord la capacité inhérente des modèles de langage, appelée cohérence contextuelle, à comprendre l'identité à travers le contexte avec une seule description. En nous inspirant de cette cohérence contextuelle inhérente, nous proposons une nouvelle méthode de génération texte-image (T2I) cohérente sans entraînement, appelée "One-Prompt-One-Story" (1Prompt1Story). Notre approche 1Prompt1Story concatène toutes les descriptions en une seule entrée pour les modèles de diffusion T2I, préservant initialement les identités des personnages. Nous affinons ensuite le processus de génération en utilisant deux nouvelles techniques : Rééquilibrage des valeurs singulières et Attention croisée préservant l'identité, garantissant un meilleur alignement avec la description d'entrée pour chaque image. Dans nos expériences, nous comparons notre méthode à diverses approches existantes de génération T2I cohérente pour démontrer son efficacité à travers des mesures quantitatives et des évaluations qualitatives. Le code est disponible sur https://github.com/byliutao/1Prompt1Story.
Les récentes avancées dans la génération de vidéos ont eu un impact significatif sur diverses applications en aval, en particulier dans la génération de vidéos préservant l'identité (IPT2V). Cependant, les méthodes existantes rencontrent des difficultés avec les artefacts de "copier-coller" et les problèmes de similarité faible, principalement en raison de leur dépendance aux informations d'image faciale de bas niveau. Cette dépendance peut entraîner des apparences faciales rigides et des artefacts reflétant des détails non pertinents. Pour relever ces défis, nous proposons EchoVideo, qui utilise deux stratégies clés : (1) un Module de Fusion Image-Texte d'Identité (IITF) qui intègre des caractéristiques sémantiques de haut niveau à partir du texte, capturant des représentations d'identité faciale propres tout en éliminant les occlusions, les poses et les variations d'éclairage pour éviter l'introduction d'artefacts ; (2) une stratégie d'entraînement en deux étapes, incorporant une méthode stochastique dans la deuxième phase pour utiliser de manière aléatoire des informations faciales superficielles. L'objectif est d'équilibrer les améliorations de la fidélité fournies par les caractéristiques superficielles tout en atténuant la dépendance excessive à leur égard. Cette stratégie encourage le modèle à utiliser des caractéristiques de haut niveau pendant l'entraînement, favorisant finalement une représentation plus robuste des identités faciales. EchoVideo préserve efficacement les identités faciales et maintient l'intégrité du corps entier. Des expériences approfondies démontrent qu'il atteint d'excellents résultats dans la génération de vidéos de haute qualité, de contrôlabilité et de fidélité.
Les méthodes courantes pour aligner des modèles déjà capables avec un comportement souhaité reposent sur la capacité des humains à fournir une supervision. Cependant, les futurs modèles surhumains surpasseront la capacité des humains. Par conséquent, les humains ne pourront que superviser faiblement les modèles surhumains. Cette lacune attendue dans l'évaluation humaine affaiblirait la sécurité des futurs systèmes d'IA. La supervision évolutive et la généralisation faible à forte sont deux approches complémentaires pour aborder ce problème. Dans cet article, nous tentons de combiner les forces de ces deux approches pour améliorer davantage l'alignement. Plus précisément, nous examinons des moyens d'améliorer la supervision humaine avec un modèle pré-entraîné solide, puis de superviser le modèle solide avec une supervision humaine faible améliorée. Pour faire des progrès empiriques itératifs, nous considérons une analogie : pouvons-nous utiliser un modèle solide pour améliorer la supervision d'un modèle faible, puis l'utiliser pour superviser le modèle solide ? Nous le testons empiriquement en affinant un petit modèle faible sur des étiquettes de vérité terrain avec l'aide supplémentaire d'un grand modèle solide, puis en affinant le modèle solide sur des étiquettes générées par le modèle faible. Nous constatons que le débat peut aider un modèle faible à extraire des informations fiables d'un modèle fort peu fiable, ce qui fournit un levier en tant que contexte sur des échantillons lors de l'entraînement d'un modèle faible. Nous montrons également qu'un ensemble de modèles faibles aide à exploiter de longs arguments générés par les débatteurs du modèle fort et à obtenir une estimation de supervision plus robuste. Des expériences approfondies sur les benchmarks NLP faible à fort d'OpenAI montrent que l'approche de combinaison conduit à un meilleur alignement, ce qui indique que le débat a le potentiel d'aider à la généralisation faible à forte.
Les grands modèles de langage multimodaux (MLLM) ont montré des avancées significatives, offrant un avenir prometteur pour les agents incarnés. Les benchmarks existants pour évaluer les MLLM utilisent principalement des images statiques ou des vidéos, limitant les évaluations à des scénarios non interactifs. Pendant ce temps, les benchmarks d'IA incarnée existants sont spécifiques à des tâches et pas assez diversifiés, ce qui n'évalue pas adéquatement les capacités incarnées des MLLM. Pour remédier à cela, nous proposons EmbodiedEval, un benchmark d'évaluation complet et interactif pour les MLLM avec des tâches incarnées. EmbodiedEval propose 328 tâches distinctes dans 125 scènes 3D variées, chacune étant rigoureusement sélectionnée et annotée. Il couvre un large éventail de tâches d'IA incarnée existantes avec une diversité considérablement améliorée, le tout dans un cadre de simulation et d'évaluation unifié adapté aux MLLM. Les tâches sont organisées en cinq catégories : navigation, interaction avec des objets, interaction sociale, réponse à des questions sur les attributs et réponse à des questions spatiales pour évaluer différentes capacités des agents. Nous avons évalué les MLLM de pointe sur EmbodiedEval et constaté qu'ils présentent un déficit significatif par rapport au niveau humain sur les tâches incarnées. Notre analyse démontre les limites des MLLM existants en termes de capacités incarnées, fournissant des perspectives pour leur développement futur. Nous mettons à disposition en open source toutes les données d'évaluation et le cadre de simulation sur https://github.com/thunlp/EmbodiedEval.
Cet article affirme que l'apprentissage automatique (ML) néglige largement un aspect important de l'intelligence générale : la robustesse face à un avenir qualitativement inconnu dans un monde ouvert. Cette robustesse est liée à l'incertitude de Knight (KU) en économie, c'est-à-dire une incertitude qui ne peut être quantifiée, et qui est exclue des formalismes clés de l'IA. Cet article vise à identifier ce point aveugle, à argumenter son importance et à catalyser la recherche pour y remédier, ce que nous estimons nécessaire pour créer une IA véritablement robuste dans un monde ouvert. Pour éclairer ce point aveugle, nous contrastons un domaine de l'IA, l'apprentissage par renforcement (RL), avec le processus d'évolution biologique. Malgré des progrès considérables en cours, le RL peine encore dans des situations de monde ouvert, échouant souvent face à des situations imprévues. Par exemple, l'idée de transférer sans entraînement une politique de conduite autonome conçue uniquement aux États-Unis au Royaume-Uni semble actuellement excessivement ambitieuse. En contraste frappant, l'évolution biologique produit régulièrement des agents qui prospèrent dans un monde ouvert, parfois même dans des situations remarquablement hors distribution (par exemple, les espèces invasives ; ou les humains, qui entreprennent une telle conduite internationale sans entraînement). De manière intéressante, l'évolution atteint une telle robustesse sans théorie explicite, formalismes ou gradients mathématiques. Nous explorons les hypothèses sous-jacentes aux formalismes typiques du RL, montrant comment ils limitent l'engagement du RL avec les inconnus caractéristiques d'un monde complexe en évolution constante. De plus, nous identifions les mécanismes par lesquels les processus évolutifs favorisent la robustesse face à des défis nouveaux et imprévisibles, et discutons des voies potentielles pour les incarner algorithmiquement. En conclusion, la fragilité intrigante persistante de l'IA peut résulter de points aveugles dans ses formalismes, et des gains significatifs pourraient découler d'une confrontation directe avec le défi de l'incertitude de Knight.
Les grands modèles de langage (LLM) exigent des ressources computationnelles significatives, rendant essentiel l'amélioration de leurs capacités sans reformation à partir de zéro. Un défi clé dans ce domaine est l'oubli catastrophique (CF), qui entrave les performances lors de la pré-formation continue (CPT) et du fine-tuning supervisé continu (CSFT). Nous proposons Control LLM, une approche novatrice qui exploite des blocs de transformateurs pré-entraînés et étendus en parallèle, alignant leurs états cachés grâce à des stratégies d'interpolation. Cette méthode préserve efficacement les performances sur les tâches existantes tout en intégrant de manière transparente de nouvelles connaissances. Des expériences approfondies démontrent l'efficacité de Control LLM à la fois en CPT et en CSFT. Sur Llama3.1-8B-Instruct, il réalise des améliorations significatives en raisonnement mathématique (+14,4% sur Math-Hard) et en performance de codage (+10% sur MBPP-PLUS). Sur Llama3.1-8B, il améliore les capacités multilingues (+10,6% sur C-Eval, +6,8% sur CMMLU, et +30,2% sur CMMLU-0shot-CoT). Il surpasse les méthodes existantes et atteint l'état de l'art parmi les modèles open-source ajustés à partir du même modèle de base, en utilisant substantiellement moins de données et de calcul. De manière cruciale, ces gains sont réalisés tout en préservant de solides capacités originales, avec une dégradation minimale (<4,3% sur MMLU) comparée à >35% dans les modèles open-source de mathématiques et de codage. Cette approche a été déployée avec succès dans les produits de recherche d'emploi et de publicité de LinkedIn alimentés par GenAI. Pour soutenir davantage la recherche, nous publions le code d'entraînement et d'évaluation (https://github.com/linkedin/ControlLLM) ainsi que des modèles entraînés sur des ensembles de données publics (https://huggingface.co/ControlLLM) à la communauté.
Les techniques de "splatting" gaussien en 3D ont permis un rendu efficace et photoréaliste de scènes statiques. Des travaux récents ont étendu ces approches pour prendre en charge la reconstruction de surfaces et le suivi. Cependant, le suivi de surfaces dynamiques avec des Gaussiennes en 3D reste difficile en raison de changements de topologie complexes, tels que l'apparition, la disparition ou la division de surfaces. Pour relever ces défis, nous proposons GSTAR, une méthode novatrice qui permet un rendu photoréaliste, une reconstruction précise de surfaces et un suivi 3D fiable pour des scènes dynamiques générales avec une topologie changeante. En utilisant des captures multi-vues en entrée, GSTAR associe des Gaussiennes aux faces du maillage pour représenter des objets dynamiques. Pour les surfaces présentant une topologie cohérente, GSTAR maintient la topologie du maillage et suit les maillages à l'aide des Gaussiennes. Dans les régions où la topologie change, GSTAR détache de manière adaptative les Gaussiennes du maillage, permettant un enregistrement précis et la génération de nouvelles surfaces basées sur ces Gaussiennes optimisées. De plus, nous introduisons une méthode de flux de scène basée sur la surface qui fournit une initialisation robuste pour le suivi entre les images. Les expériences démontrent que notre méthode suit et reconstruit efficacement des surfaces dynamiques, permettant une gamme d'applications. Notre page de projet avec la publication du code est disponible sur https://eth-ait.github.io/GSTAR/.