Comunicazione Composizionale Emergente per Proprietà Latenti del Mondo

Abstract

La pressione comunicativa multi-agente può estrarre rappresentazioni discrete e compositive di proprietà fisiche invisibili da feature video congelate? Dimostriamo che agenti che comunicano attraverso un collo di bottiglia Gumbel-Softmax con apprendimento iterativo sviluppano protocolli posizionalmente disaccoppiati per proprietà latenti (elasticità, attrito, rapporto di massa) senza etichette delle proprietà o supervisione sulla struttura dei messaggi. Con 4 agenti, il 100% di 80 semi converge a una compositività quasi perfetta (PosDis=0.999, holdout 98.3%). I controlli confermano che la struttura multi-agente – non la larghezza di banda o la copertura temporale – guida questo effetto. L'intervento causale mostra una perturbazione chirurgica delle proprietà (~15% di calo sulla proprietà target, <3% sulle altre). Un confronto controllato dei backbone rivela che il priore percettivo determina ciò che è comunicabile: DINOv2 domina sulla fisica di rampa spazialmente visibile (98.3% vs 95.1%), mentre V-JEPA 2 domina sulla fisica di collisione solo dinamica (87.4% vs 77.7%, d=2.74). Controlli scale-matched (d=3.37) e frame-matched (d=6.53) attribuiscono completamente questo gap alla pre-addestramento nativo per video. Il protocollo congelato supporta pianificazione condizionata all'azione (91.5%) con ragionamento controfattuale sulla velocità (r=0.780). La validazione su filmati reali di Physics 101 conferma un'accuratezza del 85.6% nel confronto di massa su oggetti non visti, con le dinamiche temporali che contribuiscono per un +11.2% oltre l'aspetto statico, la scalabilità degli agenti che replica la compositività al 90% per 4 agenti, e l'intervento causale che si estende a video reali (d=1.87, p=0.022).

English

Can multi-agent communication pressure extract discrete, compositional representations of invisible physical properties from frozen video features? We show that agents communicating through a Gumbel-Softmax bottleneck with iterated learning develop positionally disentangled protocols for latent properties (elasticity, friction, mass ratio) without property labels or supervision on message structure. With 4 agents, 100% of 80 seeds converge to near-perfect compositionality (PosDis=0.999, holdout 98.3%). Controls confirm multi-agent structure -- not bandwidth or temporal coverage -- drives this effect. Causal intervention shows surgical property disruption (~15% drop on targeted property, <3% on others). A controlled backbone comparison reveals that the perceptual prior determines what is communicable: DINOv2 dominates on spatially-visible ramp physics (98.3% vs 95.1%), while V-JEPA 2 dominates on dynamics-only collision physics (87.4% vs 77.7%, d=2.74). Scale-matched (d=3.37) and frame-matched (d=6.53) controls attribute this gap entirely to video-native pretraining. The frozen protocol supports action-conditioned planning (91.5%) with counterfactual velocity reasoning (r=0.780). Validation on Physics 101 real camera footage confirms 85.6% mass-comparison accuracy on unseen objects, temporal dynamics contributing +11.2% beyond static appearance, agent-scaling compositionality replicating at 90% for 4 agents, and causal intervention extending to real video (d=1.87, p=0.022).

Comunicazione Composizionale Emergente per Proprietà Latenti del Mondo

Emergent Compositional Communication for Latent World Properties

Abstract

Support