papers.description
Les agents de recherche approfondie, alimentés par des modèles de langage à grande échelle (LLMs), progressent rapidement ; cependant, leurs performances plafonnent souvent lors de la génération de rapports de recherche complexes et détaillés en utilisant des algorithmes de mise à l'échelle génériques au moment du test. S'inspirant de la nature itérative de la recherche humaine, qui implique des cycles de recherche, de raisonnement et de révision, nous proposons le Test-Time Diffusion Deep Researcher (TTD-DR). Ce cadre novateur conceptualise la génération de rapports de recherche comme un processus de diffusion. Le TTD-DR initie ce processus avec un brouillon préliminaire, une structure modifiable qui sert de fondation évolutive pour guider la direction de la recherche. Ce brouillon est ensuite affiné de manière itérative à travers un processus de "débruitage", dynamiquement informé par un mécanisme de récupération qui intègre des informations externes à chaque étape. Le processus central est en outre amélioré par un algorithme d'auto-évolution appliqué à chaque composant du flux de travail agentique, garantissant la génération d'un contexte de haute qualité pour le processus de diffusion. Cette conception centrée sur le brouillon rend le processus de rédaction de rapports plus opportun et cohérent, tout en réduisant la perte d'information lors du processus de recherche itératif. Nous démontrons que notre TTD-DR obtient des résultats de pointe sur une large gamme de benchmarks nécessitant une recherche intensive et un raisonnement multi-saut, surpassant significativement les agents de recherche approfondie existants.
La quantification des poids des grands modèles de langage (LLMs) de 16 bits vers des largeurs de bits inférieures est l'approche de facto pour déployer des transformateurs massifs sur des accélérateurs plus abordables. GPTQ s'est imposé comme l'une des méthodes standard pour la quantification post-entraînement en une seule étape à l'échelle des LLMs. Cependant, son fonctionnement interne est décrit comme une séquence de mises à jour algébriques ad hoc qui obscurcissent toute signification géométrique ou garantie dans le pire des cas. Dans ce travail, nous montrons que, lorsqu'il est exécuté de l'arrière vers l'avant (de la dernière à la première dimension) pour une couche linéaire, GPTQ est mathématiquement identique à l'algorithme du plan le plus proche de Babai pour le problème classique du vecteur le plus proche (CVP) sur un réseau défini par la matrice hessienne des entrées de la couche. Cette équivalence repose sur un argument mathématique sophistiqué et a deux conséquences analytiques : (i) l'étape de propagation d'erreur de GPTQ acquiert une interprétation géométrique intuitive ; (ii) GPTQ hérite de la borne supérieure d'erreur de l'algorithme de Babai sous la condition de non-écrêtage. Pris ensemble, ces résultats placent GPTQ sur des bases théoriques solides et ouvrent la voie à l'importation de décennies de progrès dans les algorithmes de réseaux pour la conception de futurs algorithmes de quantification pour des modèles à milliards de paramètres.
Nous présentons MMBench-GUI, un benchmark hiérarchique pour évaluer les agents d’automatisation d’interfaces graphiques (GUI) sur les plateformes Windows, macOS, Linux, iOS, Android et Web. Il se compose de quatre niveaux : Compréhension du contenu de l’interface, Ancrage des éléments, Automatisation des tâches et Collaboration des tâches, couvrant les compétences essentielles pour les agents GUI. En outre, nous proposons une nouvelle métrique, l’Efficiency-Quality Area (EQA), pour évaluer l’efficacité d’exécution des agents GUI dans des scénarios d’automatisation en ligne. Grâce à MMBench-GUI, nous identifions l’ancrage visuel précis comme un déterminant critique du succès global des tâches, soulignant les avantages substantiels des frameworks modulaires intégrant des modules spécialisés d’ancrage. De plus, pour parvenir à une automatisation fiable des GUI, un agent nécessite de solides capacités de planification des tâches et de généralisation multiplateforme, avec une mémoire à long contexte, un large espace d’actions et un raisonnement à long terme jouant un rôle crucial. Plus important encore, l’efficacité des tâches reste une dimension largement sous-explorée, et tous les modèles souffrent d’inefficacités substantielles, avec des étapes redondantes excessives même lorsque les tâches sont finalement accomplies. L’intégration d’une localisation précise, d’une planification efficace et de stratégies d’arrêt précoce est indispensable pour permettre une automatisation des GUI véritablement efficace et évolutive. Notre code de benchmark, les données d’évaluation et l’environnement d’exécution seront disponibles publiquement à l’adresse https://github.com/open-compass/MMBench-GUI.
Les modèles de langage multimodaux de grande envergure (MLLMs) ont réalisé des progrès remarquables, principalement grâce à leur capacité à traiter des contextes de plus en plus longs et complexes, tels que des images haute résolution, des séquences vidéo étendues et des entrées audio prolongées. Bien que cette capacité améliore significativement les performances des MLLMs, elle introduit des défis computationnels substantiels, principalement dus à la complexité quadratique des mécanismes d'auto-attention avec un grand nombre de tokens d'entrée. Pour atténuer ces goulots d'étranglement, la compression de tokens est apparue comme une approche prometteuse et critique, réduisant efficacement le nombre de tokens pendant l'entraînement et l'inférence. Dans cet article, nous présentons la première revue systématique et synthèse du domaine en plein essor de la compression de tokens pour les contextes longs multimodaux. Reconnaissant que les stratégies de compression efficaces sont profondément liées aux caractéristiques et redondances uniques de chaque modalité, nous catégorisons les approches existantes selon leur principal focus de données, permettant aux chercheurs d'accéder rapidement et d'apprendre des méthodes adaptées à leur domaine d'intérêt spécifique : (1) la compression centrée sur l'image, qui traite de la redondance spatiale dans les données visuelles ; (2) la compression centrée sur la vidéo, qui aborde la redondance spatio-temporelle dans les séquences dynamiques ; et (3) la compression centrée sur l'audio, qui gère la redondance temporelle et spectrale dans les signaux acoustiques. Au-delà de cette catégorisation axée sur les modalités, nous disséquons également les méthodes en fonction de leurs mécanismes sous-jacents, incluant les approches basées sur la transformation, la similarité, l'attention et les requêtes. En fournissant un aperçu complet et structuré, cette revue vise à consolider les progrès actuels, identifier les défis clés et inspirer les futures directions de recherche dans ce domaine en évolution rapide. Nous maintenons également un dépôt public pour suivre et mettre à jour continuellement les dernières avancées dans ce domaine prometteur.
L'évaluation des modèles de langage de grande taille (LLMs) repose de plus en plus sur d'autres LLMs agissant en tant qu'évaluateurs. Cependant, les paradigmes d'évaluation actuels produisent généralement un score unique ou un classement, répondant à la question de savoir quel modèle est meilleur, mais pas pourquoi. Bien qu'essentiels pour l'établissement de références, ces scores de haut niveau masquent les raisons spécifiques et exploitables derrière la performance d'un modèle. Pour combler cette lacune, nous introduisons CLEAR, un package interactif et open-source pour l'analyse d'erreurs basée sur les LLMs. CLEAR génère d'abord des retours textuels par instance, puis crée un ensemble de problèmes d'erreurs au niveau du système, et quantifie la prévalence de chaque problème identifié. Notre package fournit également aux utilisateurs un tableau de bord interactif qui permet une analyse approfondie des erreurs grâce à des visualisations agrégées, applique des filtres interactifs pour isoler des problèmes ou des plages de scores spécifiques, et permet de descendre jusqu'aux instances individuelles qui illustrent un modèle comportemental particulier. Nous démontrons l'analyse CLEAR pour des benchmarks RAG et Mathématiques, et mettons en avant son utilité à travers une étude de cas utilisateur.
Les grands modèles de langage (LLMs) sont de plus en plus adaptés à des tâches en aval via des méthodes d'apprentissage par renforcement (RL) telles que l'Optimisation de Politique Relative par Groupe (GRPO), qui nécessitent souvent des milliers de déploiements pour apprendre de nouvelles tâches. Nous soutenons que la nature interprétable du langage peut souvent offrir un support d'apprentissage bien plus riche pour les LLMs, comparé aux gradients de politique dérivés de récompenses scalaires et sporadiques. Pour tester cela, nous introduisons GEPA (Genetic-Pareto), un optimiseur de prompts qui intègre de manière approfondie la réflexion en langage naturel pour apprendre des règles de haut niveau par essais et erreurs. Étant donné tout système d'IA contenant un ou plusieurs prompts de LLM, GEPA échantillonne des trajectoires au niveau du système (par exemple, raisonnement, appels d'outils et sorties d'outils) et réfléchit sur elles en langage naturel pour diagnostiquer les problèmes, proposer et tester des mises à jour de prompts, et combiner des leçons complémentaires issues de la frontière de Pareto de ses propres tentatives. Grâce à la conception de GEPA, il peut souvent transformer même quelques déploiements en un gain de qualité significatif. Sur quatre tâches, GEPA surpasse GRPO de 10 % en moyenne et jusqu'à 20 %, tout en utilisant jusqu'à 35 fois moins de déploiements. GEPA surpasse également le principal optimiseur de prompts, MIPROv2, de plus de 10 % sur deux LLMs, et démontre des résultats prometteurs en tant que stratégie de recherche au moment de l'inférence pour l'optimisation de code.
Les modèles de langage (LMs) sont vulnérables au piratage de récompenses en contexte, où ils exploitent les failles dans des spécifications ou grilles d'évaluation erronées ou biaisées pour obtenir des scores élevés sans répondre à l'intention réelle de l'utilisateur. Nous introduisons l'auto-correction de spécification (Specification Self-Correction, SSC), un cadre novateur au moment de l'inférence qui permet à un LM d'identifier et de corriger les défauts dans sa propre spécification directrice. SSC utilise un processus d'inférence en plusieurs étapes où le modèle génère d'abord une réponse basée sur une spécification potentiellement biaisée, critique sa sortie, puis révise la spécification elle-même pour éliminer la faille exploitable. Une réponse finale, plus robuste, est ensuite générée en utilisant cette spécification auto-corrigée. À travers des expériences couvrant des tâches d'écriture créative et de codage agentique avec plusieurs LMs, nous démontrons que si les modèles exploitent initialement des spécifications biaisées dans 50 à 70 % des cas, le processus SSC réduit cette vulnérabilité de plus de 90 %. Cette réparation dynamique se produit au moment de l'inférence, ne nécessite aucune modification des poids, et conduit à un comportement du modèle plus robustement aligné. Code disponible à l'adresse https://github.com/vicgalle/specification-self-correction.
Bien que les modèles de conduite autonome de bout en bout montrent des résultats prometteurs, leur déploiement pratique est souvent entravé par des tailles de modèles importantes, une dépendance à des capteurs LiDAR coûteux et des représentations de caractéristiques BEV (Bird's Eye View) intensives en calcul. Cela limite leur évolutivité, en particulier pour les véhicules grand public équipés uniquement de caméras. Pour relever ces défis, nous proposons PRIX (Plan from Raw Pixels). Notre architecture de conduite de bout en bout novatrice et efficace fonctionne uniquement avec des données de caméra, sans représentation BEV explicite et sans nécessiter de LiDAR. PRIX exploite un extracteur de caractéristiques visuelles couplé à un module de planification générative pour prédire directement des trajectoires sûres à partir des pixels bruts. Un composant central de notre architecture est le Context-aware Recalibration Transformer (CaRT), un module novateur conçu pour améliorer efficacement les caractéristiques visuelles multi-niveaux afin de permettre une planification plus robuste. Nous démontrons à travers des expériences approfondies que PRIX atteint des performances de pointe sur les benchmarks NavSim et nuScenes, égalant les capacités des planificateurs de diffusion multimodaux plus volumineux tout en étant nettement plus efficace en termes de vitesse d'inférence et de taille de modèle, ce qui en fait une solution pratique pour un déploiement réel. Notre travail est open-source et le code sera disponible à l'adresse https://maxiuw.github.io/prix.
Pour comprendre et identifier les risques sans précédent posés par les modèles d'intelligence artificielle (IA) en évolution rapide, ce rapport présente une évaluation complète de leurs risques frontaliers. En nous appuyant sur l'analyse E-T-C (environnement de déploiement, source de menace, capacité habilitante) issue du Cadre de Gestion des Risques de l'IA Frontalière (v1.0) (SafeWork-F1-Framework), nous identifions des risques critiques dans sept domaines : cyber-offensive, risques biologiques et chimiques, persuasion et manipulation, R\&D autonome incontrôlée de l'IA, tromperie et manigance stratégiques, auto-réplication et collusion. Guidés par la "Loi AI-45^circ", nous évaluons ces risques en utilisant des "lignes rouges" (seuils intolérables) et des "lignes jaunes" (indicateurs d'alerte précoce) pour définir des zones de risque : verte (risque gérable pour un déploiement routinier et une surveillance continue), jaune (nécessitant des mesures d'atténuation renforcées et un déploiement contrôlé) et rouge (exigeant la suspension du développement et/ou du déploiement). Les résultats expérimentaux montrent que tous les modèles récents d'IA frontalière se situent dans les zones verte et jaune, sans franchir de lignes rouges. Plus précisément, aucun modèle évalué ne franchit la ligne jaune pour les risques de cyber-offensive ou de R\&D incontrôlée de l'IA. Pour l'auto-réplication, ainsi que la tromperie et les manigances stratégiques, la plupart des modèles restent dans la zone verte, à l'exception de certains modèles de raisonnement dans la zone jaune. En matière de persuasion et de manipulation, la plupart des modèles se trouvent dans la zone jaune en raison de leur influence efficace sur les humains. Pour les risques biologiques et chimiques, nous ne pouvons exclure la possibilité que la plupart des modèles se situent dans la zone jaune, bien qu'une modélisation détaillée des menaces et une évaluation approfondie soient nécessaires pour affirmer davantage. Ce travail reflète notre compréhension actuelle des risques frontaliers de l'IA et appelle à une action collective pour atténuer ces défis.
Le Chat Vidéo IA émerge comme un nouveau paradigme pour la Communication en Temps Réel (RTC), où un des interlocuteurs n'est pas un humain, mais un Modèle de Langage Multimodal de Grande Taille (MLLM). Cela rend l'interaction entre les humains et l'IA plus intuitive, comme si l'on discutait face à face avec une personne réelle. Cependant, cela pose des défis majeurs en termes de latence, car l'inférence du MLLM occupe la majeure partie du temps de réponse, laissant très peu de temps pour le streaming vidéo. En raison de l'incertitude et de l'instabilité du réseau, la latence de transmission devient un goulot d'étranglement critique empêchant l'IA de se comporter comme une personne réelle. Pour résoudre ce problème, nous proposons Artic, un cadre de Communication en Temps Réel orienté IA, explorant le changement des exigences réseau de "l'humain regardant la vidéo" à "l'IA comprenant la vidéo". Pour réduire considérablement le débit tout en maintenant la précision du MLLM, nous proposons le Streaming Vidéo Sensible au Contexte qui reconnaît l'importance de chaque région vidéo pour la conversation et alloue le débit presque exclusivement aux régions importantes pour le chat. Pour éviter la retransmission de paquets, nous proposons le Taux de Rafraîchissement Adaptatif Résilient aux Pertes qui exploite les images précédentes pour remplacer les images perdues ou retardées tout en évitant le gaspillage de débit. Pour évaluer l'impact de la qualité du streaming vidéo sur la précision du MLLM, nous avons créé le premier benchmark, nommé Benchmark de Compréhension de Vidéo Dégradée (DeViBench). Enfin, nous discutons de certaines questions ouvertes et des solutions en cours pour le Chat Vidéo IA.
Dans la segmentation sémantique adaptative de domaine non supervisée (UDA-SS), un modèle est entraîné sur des données annotées d'un domaine source (par exemple, des images synthétiques) puis adapté à un domaine cible non annoté (par exemple, des images du monde réel) sans accès aux annotations cibles. Les méthodes existantes en UDA-SS peinent souvent à équilibrer les détails locaux fins avec les informations contextuelles globales, ce qui entraîne des erreurs de segmentation dans les régions complexes. Pour résoudre ce problème, nous introduisons le module de Raffinement Adaptatif des Caractéristiques (AFR), qui améliore la précision de la segmentation en affinant les caractéristiques haute résolution à l'aide de connaissances sémantiques issues des logits basse résolution. AFR intègre également des composantes haute fréquence, qui capturent les structures fines et fournissent des informations cruciales sur les contours, améliorant ainsi la délimitation des objets. De plus, AFR équilibre de manière adaptative les informations locales et globales grâce à une attention pilotée par l'incertitude, réduisant ainsi les erreurs de classification. Sa conception légère permet une intégration transparente dans les méthodes UDA basées sur HRDA, conduisant à des performances de segmentation de pointe. Notre approche améliore les méthodes UDA-SS existantes de 1,05 % en mIoU sur GTA V --> Cityscapes et de 1,04 % en mIoU sur Synthia --> Cityscapes. L'implémentation de notre framework est disponible à l'adresse suivante : https://github.com/Masrur02/AFRDA