VISTA : Entraînement auto-vérifié à cohérence de vue pour l'ancrage d'interfaces graphiques

Résumé

Lorsque l'on applique l'Optimisation Relative des Politiques par Groupes (GRPO) pour l'ancrage d'interface graphique (GUI Grounding), les tirages (rollouts) sont échantillonnés à partir d'une seule vue d'écran ; les groupes deviennent souvent soit tous des échecs sur des instances difficiles, soit tous des succès sur des instances faciles, ne fournissant ainsi aucun avantage relatif utile. Nous proposons VISTA (View-Consistent Self-Verified Training), un cadre d'entraînement basé sur GRPO qui construit chaque groupe de comparaison à partir de multiples vues préservant la cible d'une même instance d'interface graphique. Chaque vue est générée par un recadrage (crop) qui maintient l'élément cible visible et remappe exactement sa boîte, permettant ainsi de comparer les tirages du modèle sur des entrées sémantiquement équivalentes mais géométriquement différentes. Pour stabiliser la génération de coordonnées courtes sans transformer l'apprentissage par renforcement en imitation inconditionnelle, VISTA ajoute en outre un ancrage inter-vues auto-vérifié : une réponse oracle optimisée avec une perte pondérée par l'avantage, exclue de la baseline du groupe et activée uniquement lorsque le modèle a produit un tirage de récompense maximale. Sur cinq benchmarks d'ancrage d'interface graphique et plusieurs backbones Qwen, VISTA améliore systématiquement la précision d'ancrage. Sur ScreenSpot-Pro, il fait passer Qwen3-VL 4B/8B/30B-A3B de 55,5/52,7/53,7 à 63,4/65,8/67,0. Les analyses de robustesse montrent en outre une précision de pire vue plus élevée et des taux de basculement de prédiction plus faibles.

English

When applying Group Relative Policy Optimization (GRPO) for GUI Grounding, rollouts are sampled from a single screenshot view; groups often become either all failures on difficult instances or all successes on easy ones, yielding no useful relative advantage. We propose VISTA (View-Consistent Self-Verified Training), a GRPO-based training framework that constructs each comparison group from multiple target-preserving views of the same GUI instance.Each view is generated by a crop that keeps the target element visible and remaps its box exactly, so model rollouts are compared across semantically equivalent but geometrically different inputs. To stabilize short coordinate generation without turning reinforcement learning into unconditional imitation, VISTA further adds a self-verified cross-view anchor: an oracle answer optimized with an advantage-weighted loss, excluded from the group baseline and activated only when the model has produced a maximum-reward rollout. Across five GUI-grounding benchmarks and multiple Qwen backbones, VISTA consistently improves grounding accuracy.On ScreenSpot-Pro, it raises Qwen3-VL 4B/8B/30B-A3B from 55.5/52.7/53.7 to 63.4/65.8/67.0. Robustness analyses further show higher worst-view accuracy and lower prediction flip rates.