Comunicação Composicional Emergente para Propriedades Latentes do Mundo

Resumo

A pressão comunicacional multiagente pode extrair representações discretas e composicionais de propriedades físicas invisíveis a partir de características de vídeo congeladas? Mostramos que agentes que se comunicam através de um gargalo Gumbel-Softmax com aprendizado iterado desenvolvem protocolos posicionalmente desembaraçados para propriedades latentes (elasticidade, atrito, razão de massa) sem rótulos de propriedade ou supervisão na estrutura da mensagem. Com 4 agentes, 100% de 80 sementes convergem para uma composicionalidade quase perfeita (PosDis=0,999, holdout 98,3%). Controlos confirmam que a estrutura multiagente – e não a largura de banda ou a cobertura temporal – conduz este efeito. A intervenção causal mostra uma disrupção cirúrgica da propriedade (~15% de queda na propriedade alvo, <3% nas outras). Uma comparação controlada de *backbones* revela que o pré-treino perceptual determina o que é comunicável: o DINOv2 domina na física de rampa espacialmente visível (98,3% vs 95,1%), enquanto o V-JEPA 2 domina na física de colisão apenas dinâmica (87,4% vs 77,7%, d=2,74). Controlos com escala equivalente (d=3,37) e com número de *frames* equivalente (d=6,53) atribuem esta diferença inteiramente ao pré-treino nativo em vídeo. O protocolo congelado suporta planeamento condicionado à ação (91,5%) com raciocínio contrafactual de velocidade (r=0,780). A validação em filmagens reais do Physics 101 confirma 85,6% de precisão na comparação de massa em objetos não vistos, com a dinâmica temporal contribuindo com +11,2% para além da aparência estática, a composicionalidade de escalonamento de agentes replicando-se a 90% para 4 agentes, e a intervenção causal estendendo-se a vídeo real (d=1,87, p=0,022).

English

Can multi-agent communication pressure extract discrete, compositional representations of invisible physical properties from frozen video features? We show that agents communicating through a Gumbel-Softmax bottleneck with iterated learning develop positionally disentangled protocols for latent properties (elasticity, friction, mass ratio) without property labels or supervision on message structure. With 4 agents, 100% of 80 seeds converge to near-perfect compositionality (PosDis=0.999, holdout 98.3%). Controls confirm multi-agent structure -- not bandwidth or temporal coverage -- drives this effect. Causal intervention shows surgical property disruption (~15% drop on targeted property, <3% on others). A controlled backbone comparison reveals that the perceptual prior determines what is communicable: DINOv2 dominates on spatially-visible ramp physics (98.3% vs 95.1%), while V-JEPA 2 dominates on dynamics-only collision physics (87.4% vs 77.7%, d=2.74). Scale-matched (d=3.37) and frame-matched (d=6.53) controls attribute this gap entirely to video-native pretraining. The frozen protocol supports action-conditioned planning (91.5%) with counterfactual velocity reasoning (r=0.780). Validation on Physics 101 real camera footage confirms 85.6% mass-comparison accuracy on unseen objects, temporal dynamics contributing +11.2% beyond static appearance, agent-scaling compositionality replicating at 90% for 4 agents, and causal intervention extending to real video (d=1.87, p=0.022).

Comunicação Composicional Emergente para Propriedades Latentes do Mundo

Emergent Compositional Communication for Latent World Properties

Resumo

Support