Communication compositionnelle émergente pour les propriétés latentes du monde

Résumé

La pression communicationnelle multi-agent peut-elle extraire des représentations discrètes et compositionnelles de propriétés physiques invisibles à partir de caractéristiques vidéo figées ? Nous démontrons que des agents communiquant via un goulot d'étranglement Gumbel-Softmax avec apprentissage itératif développent des protocoles positionnellement désenchevêtrés pour des propriétés latentes (élasticité, frottement, ratio de masse) sans étiquettes de propriétés ni supervision sur la structure des messages. Avec 4 agents, 100 % des 80 amorces convergent vers une compositionnalité quasi parfaite (PosDis=0,999, précision de validation 98,3 %). Les témoins confirment que c'est la structure multi-agent – et non la bande passante ou la couverture temporelle – qui induit cet effet. Une intervention causale révèle une perturbation chirurgicale des propriétés (~15 % de baisse sur la propriété ciblée, <3 % sur les autres). Une comparaison contrôlée des modèles de base révèle que l'a priori perceptuel détermine ce qui est communicable : DINOv2 domine sur la physique de rampe spatialement visible (98,3 % contre 95,1 %), tandis que V-JEPA 2 domine sur la physique de collision purement dynamique (87,4 % contre 77,7 %, d=2,74). Des témoins à échelle comparable (d=3,37) et à nombre d'images comparable (d=6,53) attribuent cet écart entièrement au pré-entraînement natif sur vidéo. Le protocole figé prend en charge une planification conditionnée par l'action (91,5 %) avec un raisonnement contrefactuel sur la vitesse (r=0,780). La validation sur des séquences réelles de Physics 101 confirme une précision de 85,6 % pour la comparaison des masses sur des objets non vus, les dynamiques temporelles contribuant à +11,2 % au-delà de l'apparence statique, la compositionnalité par mise à l'échelle des agents se répliquant à 90 % pour 4 agents, et l'intervention causale s'étendant à la vidéo réelle (d=1,87, p=0,022).

English

Can multi-agent communication pressure extract discrete, compositional representations of invisible physical properties from frozen video features? We show that agents communicating through a Gumbel-Softmax bottleneck with iterated learning develop positionally disentangled protocols for latent properties (elasticity, friction, mass ratio) without property labels or supervision on message structure. With 4 agents, 100% of 80 seeds converge to near-perfect compositionality (PosDis=0.999, holdout 98.3%). Controls confirm multi-agent structure -- not bandwidth or temporal coverage -- drives this effect. Causal intervention shows surgical property disruption (~15% drop on targeted property, <3% on others). A controlled backbone comparison reveals that the perceptual prior determines what is communicable: DINOv2 dominates on spatially-visible ramp physics (98.3% vs 95.1%), while V-JEPA 2 dominates on dynamics-only collision physics (87.4% vs 77.7%, d=2.74). Scale-matched (d=3.37) and frame-matched (d=6.53) controls attribute this gap entirely to video-native pretraining. The frozen protocol supports action-conditioned planning (91.5%) with counterfactual velocity reasoning (r=0.780). Validation on Physics 101 real camera footage confirms 85.6% mass-comparison accuracy on unseen objects, temporal dynamics contributing +11.2% beyond static appearance, agent-scaling compositionality replicating at 90% for 4 agents, and causal intervention extending to real video (d=1.87, p=0.022).

Communication compositionnelle émergente pour les propriétés latentes du monde

Emergent Compositional Communication for Latent World Properties

Résumé

Support