Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles fondationnels multimodaux, tels que GPT-4o, ont récemment réalisé des progrès remarquables, mais il n'est pas clair où se situent exactement ces modèles en termes de compréhension visuelle. Dans cet article, nous évaluons les performances des modèles fondationnels multimodaux populaires (GPT-4o, o4-mini, Gemini 1.5 Pro et Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) sur des tâches standard de vision par ordinateur (segmentation sémantique, détection d'objets, classification d'images, prédiction de profondeur et de normales de surface) en utilisant des ensembles de données établis (par exemple, COCO, ImageNet et ses variantes, etc.). Les principaux défis pour réaliser cette évaluation sont : 1) la plupart des modèles sont entraînés à produire du texte et ne peuvent pas exprimer nativement des domaines variés, tels que des segments ou de la géométrie 3D, et 2) de nombreux modèles leaders sont propriétaires et accessibles uniquement au niveau d'une API, c'est-à-dire qu'il n'y a pas d'accès aux poids pour les adapter. Nous relevons ces défis en traduisant les tâches standard de vision en tâches équivalentes pouvant être sollicitées par des prompts textuels et compatibles avec les API, via un enchaînement de prompts, pour créer un cadre d'évaluation standardisé. Nous observons que 1) les modèles ne sont pas proches des modèles spécialistes de pointe dans aucune tâche. Cependant, 2) ils sont des généralistes respectables ; ce qui est remarquable car ils sont probablement entraînés principalement sur des tâches basées sur des images et du texte. 3) Ils performent nettement mieux dans les tâches sémantiques que dans les tâches géométriques. 4) Bien que les techniques d'enchaînement de prompts affectent les performances, les meilleurs modèles montrent moins de sensibilité aux variations de prompts. 5) GPT-4o obtient les meilleurs résultats parmi les modèles non raisonnants, se classant premier dans 4 tâches sur 6. 6) Les modèles raisonnants, par exemple o3, montrent des améliorations dans les tâches géométriques. 7) Une analyse préliminaire des modèles avec génération d'images native, comme le dernier GPT-4o, montre qu'ils présentent des particularités telles que des hallucinations et des désalignements spatiaux.
Le coût computationnel élevé des modèles de diffusion lors de l'inférence entrave leur utilisation comme émulateurs physiques rapides. Dans le contexte de la génération d'images et de vidéos, cet inconvénient computationnel a été résolu en générant dans l'espace latent d'un autoencodeur plutôt que dans l'espace des pixels. Dans ce travail, nous étudions si une stratégie similaire peut être efficacement appliquée à l'émulation de systèmes dynamiques et à quel coût. Nous constatons que la précision de l'émulation dans l'espace latent est étonnamment robuste à une large gamme de taux de compression (jusqu'à 1000x). Nous montrons également que les émulateurs basés sur la diffusion sont systématiquement plus précis que leurs homologues non génératifs et compensent l'incertitude de leurs prédictions par une plus grande diversité. Enfin, nous abordons les choix de conception pratiques, allant des architectures aux optimiseurs, que nous avons jugés essentiels pour entraîner des émulateurs dans l'espace latent.
L'évolution rapide des modèles de langage de grande taille (LLMs) a accentué la nécessité de cadres d'évaluation qui dépassent les benchmarks centrés sur l'anglais et répondent aux exigences des régions linguistiquement diversifiées comme l'Inde. Nous présentons EKA-EVAL, un cadre d'évaluation unifié et prêt pour la production, qui intègre plus de 35 benchmarks, dont 10 ensembles de données spécifiques à l'Inde, couvrant des catégories telles que le raisonnement, les mathématiques, l'utilisation d'outils, la compréhension de contextes longs et la compréhension de lecture. Par rapport aux outils d'évaluation existants pour les langues indiennes, EKA-EVAL offre une couverture de benchmarks plus large, avec un support intégré pour l'inférence distribuée, la quantification et l'utilisation multi-GPU. Notre comparaison systématique positionne EKA-EVAL comme la première suite d'évaluation de bout en bout et extensible, conçue à la fois pour les LLMs globaux et indiens, réduisant considérablement les obstacles au benchmarking multilingue. Le cadre est open-source et disponible publiquement à l'adresse https://github.com/lingo-iitgn/eka-eval et fait partie de l'initiative EKA en cours (https://eka.soket.ai), qui vise à s'étendre à plus de 100 benchmarks et à établir un écosystème d'évaluation multilingue robuste pour les LLMs.
L'évaluation de l'écriture créative générée par les grands modèles de langage (LLMs) reste un défi, car les récits ouverts ne disposent pas de vérités de référence. En l'absence de méthodes automatisées performantes pour l'évaluation, les modèles de langage prêts à l'emploi (OTS) sont utilisés comme juges en mode "zero-shot", mais leur fiabilité dans ce contexte reste incertaine. Dans le but d'établir une évaluation robuste de l'écriture créative, nous introduisons LitBench, le premier benchmark standardisé et jeu de données associé pour la vérification de l'écriture créative, comprenant un ensemble de test réservé de 2 480 comparaisons d'histoires débiaisées et étiquetées par des humains, issues de Reddit, ainsi qu'un corpus d'entraînement de 43 827 paires d'étiquettes de préférence humaine. En utilisant LitBench, nous (i) évaluons les juges LLM en mode "zero-shot", (ii) entraînons des modèles de récompense Bradley-Terry et génératifs, et (iii) menons une étude humaine en ligne pour valider les classements des modèles de récompense sur des histoires nouvellement générées par des LLM. Notre benchmark identifie Claude-3.7-Sonnet comme le juge prêt à l'emploi le plus performant, atteignant un accord de 73 % avec les préférences humaines ; parmi les modèles de récompense entraînés, les modèles Bradley-Terry et génératifs atteignent tous deux une précision de 78 %, surpassant tous les juges prêts à l'emploi. Une étude humaine en ligne confirme en outre que nos modèles de récompense entraînés s'alignent systématiquement avec les préférences humaines sur des histoires générées par des LLM inédites. Nous mettons LitBench et les modèles de récompense à disposition sur https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, offrant ainsi une ressource validée pour l'évaluation automatisée fiable et l'optimisation des systèmes d'écriture créative.