Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage ont démontré des avancées substantielles dans les capacités de raisonnement, en particulier grâce à l'augmentation à l'inférence, comme illustré par des modèles tels que l'o1 d'OpenAI. Cependant, les Modèles Vision-Langage (VLM) actuels ont souvent du mal à effectuer un raisonnement systématique et structuré, notamment lorsqu'ils traitent des tâches complexes de questions-réponses visuelles. Dans ce travail, nous présentons LLaVA-o1, un nouveau VLM conçu pour effectuer un raisonnement autonome à plusieurs étapes. Contrairement à la simple incitation en chaîne de pensées, LLaVA-o1 s'engage de manière indépendante dans des étapes séquentielles de résumé, d'interprétation visuelle, de raisonnement logique et de génération de conclusions. Cette approche structurée permet à LLaVA-o1 d'obtenir des améliorations marquées en précision sur des tâches intensives en raisonnement. Pour y parvenir, nous avons compilé l'ensemble de données LLaVA-o1-100k, en intégrant des échantillons de diverses sources de questions-réponses visuelles et en fournissant des annotations de raisonnement structuré. De plus, nous proposons une méthode de recherche en faisceau au niveau des étapes au moment de l'inférence, qui permet une augmentation efficace à l'inférence. Remarquablement, avec seulement 100 000 échantillons d'entraînement et une méthode d'augmentation à l'inférence simple mais efficace, LLaVA-o1 surpasse non seulement son modèle de base de 8,9 % sur un large éventail de référentiels de raisonnement multimodal, mais dépasse également les performances de modèles plus grands voire fermés, tels que Gemini-1.5-pro, GPT-4o-mini et Llama-3.2-90B-Vision-Instruct.
Alors que la génération de contenu 3D a progressé de manière significative, les méthodes existantes rencontrent encore des défis liés aux formats d'entrée, à la conception de l'espace latent et aux représentations de sortie. Cet article présente un nouveau cadre de génération 3D qui aborde ces défis, offrant une génération 3D évolutive et de haute qualité avec un espace latent structuré en nuage de points interactif. Notre cadre utilise un Autoencodeur Variationnel (VAE) avec des rendus RGB-D(epth)-N(ormal) multi-vues posés en entrée, en utilisant une conception d'espace latent unique qui préserve les informations de forme 3D, et intègre un modèle de diffusion latent en cascade pour une meilleure disentanglement forme-texture. La méthode proposée, GaussianAnything, prend en charge la génération 3D conditionnelle multimodale, permettant des entrées de nuage de points, de légende et d'images à vue unique/multi-vues. Notamment, le nouvel espace latent proposé permet naturellement le disentanglement géométrie-texture, permettant ainsi une édition consciente de la 3D. Les résultats expérimentaux démontrent l'efficacité de notre approche sur plusieurs ensembles de données, surpassant les méthodes existantes à la fois en génération 3D conditionnée par du texte et des images.
Dans cet article, nous présentons RAG, une méthode de génération de texte en image sensible à la région, conditionnée par des descriptions régionales pour une composition de mise en page précise. La sollicitation régionale, ou génération compositionnelle, qui permet un contrôle spatial détaillé, a suscité un intérêt croissant pour sa praticité dans les applications du monde réel. Cependant, les méthodes précédentes introduisent soit des modules entraînables supplémentaires, donc uniquement applicables à des modèles spécifiques, soit manipulent des cartes de scores au sein des couches d'attention croisée en utilisant des masques d'attention, ce qui entraîne une force de contrôle limitée lorsque le nombre de régions augmente. Pour surmonter ces limitations, nous divisons la génération multi-régions en deux sous-tâches, la construction de la région individuelle (Liaison Dure Régionale) qui garantit que la sollicitation régionale est correctement exécutée, et le raffinement global des détails (Affinement Doux Régional) sur les régions qui ignorent les frontières visuelles et améliorent les interactions adjacentes. De plus, RAG rend possible la retouche, où les utilisateurs peuvent modifier des régions spécifiques insatisfaites dans la dernière génération tout en laissant toutes les autres régions inchangées, sans recourir à des modèles d'inpainting supplémentaires. Notre approche est sans réglage et applicable à d'autres cadres comme une amélioration de la propriété suivant la sollicitation. Des expériences quantitatives et qualitatives démontrent que RAG atteint des performances supérieures en termes de liaison d'attributs et de relations d'objets par rapport aux méthodes sans réglage précédentes.
Le modèle récemment publié, Claude 3.5 Computer Use, se distingue en tant que premier modèle d'IA de pointe à offrir l'utilisation d'un ordinateur en version bêta publique sous la forme d'un agent d'interface graphique (GUI). En tant que version bêta précoce, sa capacité dans un environnement complexe du monde réel reste inconnue. Dans cette étude de cas visant à explorer Claude 3.5 Computer Use, nous sélectionnons et organisons une collection de tâches soigneusement conçues couvrant divers domaines et logiciels. Les observations de ces cas démontrent la capacité sans précédent de Claude 3.5 Computer Use dans l'exécution d'actions de bout en bout, de la langue aux actions sur le bureau. En parallèle de cette étude, nous fournissons un cadre d'agent prêt à l'emploi pour le déploiement de modèles d'automatisation GUI basés sur des API avec une implémentation facile. Nos études de cas visent à mettre en avant les capacités et limites de Claude 3.5 Computer Use avec des analyses détaillées et à soulever des questions sur la planification, l'action et la critique, qui doivent être prises en compte pour des améliorations futures. Nous espérons que cette exploration préliminaire inspirera de futures recherches au sein de la communauté des agents GUI. Tous les cas de test décrits dans l'article peuvent être essayés via le projet : https://github.com/showlab/computer_use_ootb.
Les Modèles de Langage Vidéo à Grande Échelle (Vid-LLMs) ont réalisé des avancées remarquables dans la compréhension du contenu vidéo pour le dialogue de Questions-Réponses (QA). Cependant, ils éprouvent des difficultés à étendre cette compréhension visuelle à des tâches nécessitant une localisation temporelle précise, connue sous le nom d'Ancrage Temporel Vidéo (VTG). Pour combler cette lacune, nous introduisons Number-Prompt (NumPro), une méthode novatrice qui permet aux Vid-LLMs de relier la compréhension visuelle à l'ancrage temporel en ajoutant des identifiants numériques uniques à chaque image de trame vidéo. En traitant une vidéo comme une séquence d'images de trame numérotées, NumPro transforme le VTG en un processus intuitif : feuilleter des cases de manga en séquence. Cela permet aux Vid-LLMs de "lire" les chronologies d'événements, en reliant de manière précise le contenu visuel aux informations temporelles correspondantes. Nos expériences démontrent que NumPro améliore significativement les performances de VTG des Vid-LLMs de premier plan sans coût computationnel supplémentaire. De plus, l'adaptation sur un ensemble de données amélioré par NumPro définit un nouvel état de l'art pour le VTG, dépassant les méthodes précédemment les plus performantes de jusqu'à 6,9\% en mIoU pour la récupération d'instant et de 8,5\% en mAP pour la détection de moments forts. Le code sera disponible sur https://github.com/yongliang-wu/NumPro.
Nous présentons Xmodel-1.5, un nouveau modèle large multilingue de 1 milliard de paramètres pré-entraîné sur environ 2 billions de jetons. Le modèle démontre de solides performances dans plusieurs langues, avec des résultats particulièrement remarquables en thaïlandais, en arabe et en français, en plus de son efficacité en chinois et en anglais. De plus, nous contribuons à la communauté de recherche en publiant un ensemble de données d'évaluation en thaïlandais, comprenant des centaines de questions annotées par des étudiants de l'École d'Innovation Intégrée de l'Université Chulalongkorn. Bien que les résultats soient prometteurs, nous reconnaissons qu'il reste des possibilités d'amélioration. Nous espérons que ce travail fera progresser les efforts en cours dans la recherche en IA multilingue et favorisera une meilleure compréhension interlinguistique dans diverses tâches de traitement automatique des langues naturelles. Nos modèles et notre code sont disponibles publiquement sur GitHub à l'adresse https://github.com/XiaoduoAILab/XmodelLM.
L'entraînement des réseaux neuronaux profonds – et plus récemment, des grands modèles – nécessite des optimiseurs efficaces et évolutifs. Les algorithmes de gradient adaptatifs tels qu'Adam, AdamW et leurs variantes ont été essentiels à cette tâche. Malgré le développement de nombreux algorithmes de réduction de la variance au cours de la dernière décennie visant à accélérer l'optimisation stochastique dans des contextes convexes et non convexes, la réduction de la variance n'a pas connu un succès généralisé dans l'entraînement des réseaux neuronaux profonds ou des grands modèles de langage. Par conséquent, elle est restée une approche moins privilégiée dans l'IA moderne. Dans cet article, pour libérer la puissance de la réduction de la variance pour un entraînement efficace des grands modèles, nous proposons un cadre d'optimisation unifié, MARS (Make vAriance Reduction Shine), qui concilie les méthodes de gradient préconditionnées avec la réduction de la variance via une technique d'élan stochastique récursive mise à l'échelle. Au sein de notre cadre, nous introduisons trois exemples de MARS qui exploitent des mises à jour de gradient préconditionnées basées sur AdamW, Lion et Shampoo, respectivement. Nous établissons également un lien entre nos algorithmes et les optimiseurs existants. Les résultats expérimentaux sur l'entraînement des modèles GPT-2 indiquent que MARS surpasse systématiquement AdamW de manière significative.