Comunicación Compositiva Emergente para Propiedades Latentes del Mundo
Emergent Compositional Communication for Latent World Properties
March 18, 2026
Autores: Tomek Kaszyński
cs.AI
Resumen
¿Puede la presión comunicativa multiagente extraer representaciones discretas y composicionales de propiedades físicas invisibles a partir de características de video congeladas? Demostramos que los agentes que se comunican a través de un cuello de botella Gumbel-Softmax con aprendizaje iterado desarrollan protocolos posicionalmente desentrelazados para propiedades latentes (elasticidad, fricción, relación de masa) sin etiquetas de propiedades ni supervisión sobre la estructura de los mensajes. Con 4 agentes, el 100% de 80 semillas convergen a una composicionalidad casi perfecta (PosDis=0.999, retención 98.3%). Los controles confirman que la estructura multiagente –no el ancho de banda o la cobertura temporal– impulsa este efecto. La intervención causal muestra una disrupción quirúrgica de propiedades (~15% de caída en la propiedad objetivo, <3% en otras). Una comparación controlada de *backbones* revela que el previo perceptual determina lo que es comunicable: DINOv2 domina en física de rampa espacialmente visible (98.3% vs 95.1%), mientras que V-JEPA 2 domina en física de colisión solo dinámica (87.4% vs 77.7%, d=2.74). Los controles equiparados en escala (d=3.37) y en fotogramas (d=6.53) atribuyen esta brecha enteramente al preentrenamiento nativo de video. El protocolo congelado admite planificación condicionada por acciones (91.5%) con razonamiento contrafáctico de velocidad (r=0.780). La validación en secuencias de video real de Physics 101 confirma un 85.6% de precisión en comparación de masa en objetos no vistos, con las dinámicas temporales contribuyendo un +11.2% más allá de la apariencia estática, la escalabilidad de agentes replicando la composicionalidad al 90% para 4 agentes, y la intervención causal extendiéndose a video real (d=1.87, p=0.022).
English
Can multi-agent communication pressure extract discrete, compositional representations of invisible physical properties from frozen video features? We show that agents communicating through a Gumbel-Softmax bottleneck with iterated learning develop positionally disentangled protocols for latent properties (elasticity, friction, mass ratio) without property labels or supervision on message structure. With 4 agents, 100% of 80 seeds converge to near-perfect compositionality (PosDis=0.999, holdout 98.3%). Controls confirm multi-agent structure -- not bandwidth or temporal coverage -- drives this effect. Causal intervention shows surgical property disruption (~15% drop on targeted property, <3% on others). A controlled backbone comparison reveals that the perceptual prior determines what is communicable: DINOv2 dominates on spatially-visible ramp physics (98.3% vs 95.1%), while V-JEPA 2 dominates on dynamics-only collision physics (87.4% vs 77.7%, d=2.74). Scale-matched (d=3.37) and frame-matched (d=6.53) controls attribute this gap entirely to video-native pretraining. The frozen protocol supports action-conditioned planning (91.5%) with counterfactual velocity reasoning (r=0.780). Validation on Physics 101 real camera footage confirms 85.6% mass-comparison accuracy on unseen objects, temporal dynamics contributing +11.2% beyond static appearance, agent-scaling compositionality replicating at 90% for 4 agents, and causal intervention extending to real video (d=1.87, p=0.022).