Les dynamiques prédites peuvent-elles exister dans le monde physique ?

Résumé

Les systèmes d'IA physique prédictive génèrent des déploiements d'état, des segments d'action et des plans latents, mais une faible erreur quadratique moyenne (RMSE) n'implique pas qu'une proposition particulière soit physiquement exécutable. Nous formulons l'admissibilité physique comme une interface prédiction-contrôle : avant l'exécution, une proposition décodée est traitée comme une dynamique candidate et évaluée à l'aide de conditions cinématiques, dynamiques et d'horizon direct-à-composé. Le fait de passer ces conditions n'est pas un certificat de réussite de la tâche ; le rejet identifie une violation de l'enveloppe physique spécifiée et fournit une raison au niveau du composant. Sur Hugging Face LeRobot PushT, une falsification contrôlée montre que la RMSE de prédiction à une étape et les résidus dynamiques standardisés atteignent une aire sous la courbe caractéristique de fonctionnement du récepteur (AUC) de 0,982 et 0,972, les conditions purement cinématiques atteignent une AUC de 0,592, et la porte complète atteint une AUC de 0,957 avec une attribution au niveau des conditions. Dans des expériences d'intervention basées sur le rejeu, les filtres basés sur les résidus et la porte complète d'admissibilité physique empêchent 87 à 89 % des propositions invalides tout en préservant un progrès moyen proche de 0,998.

English

Predictive Physical AI systems output state rollouts, action chunks, and latent plans, yet a low root-mean-square error (RMSE) does not imply that a particular proposal is physically executable. We formulate physical admissibility as a prediction-control interface: before execution, a decoded proposal is treated as candidate dynamics and evaluated using kinematic, dynamic, and direct-to-composed horizon conditions. Passing is not a certificate of task success; rejection identifies violation of the specified physical envelope and gives a component-level reason. On Hugging Face LeRobot PushT, controlled falsification shows that one-step prediction-RMSE and standardized dynamics residuals reach area under the receiver operating characteristic curve (AUC) 0.982 and 0.972, kinematic-only conditions reach AUC 0.592, and the full gate reaches AUC 0.957 with condition-level attribution. In replay-based intervention experiments, residual-based filters and the full physical-admissibility gate prevent 87-$89% of invalid proposals while preserving mean progress near 0.998.