Возникновение композиционной коммуникации о латентных свойствах мира
Emergent Compositional Communication for Latent World Properties
March 18, 2026
Авторы: Tomek Kaszyński
cs.AI
Аннотация
Может ли коммуникационное давление в многоагентной среде извлекать дискретные, композиционные представления о невидимых физических свойствах из замороженных визуальных признаков? Мы показываем, что агенты, взаимодействующие через узкое место (Gumbel-Softmax bottleneck) с итеративным обучением, формируют позиционно-разделенные протоколы для латентных свойств (упругость, трение, соотношение масс) без использования меток свойств или контроля над структурой сообщений. При использовании 4 агентов 100% из 80 запусков сходятся к почти идеальной композиционности (PosDis=0.999, 98.3% на отложенной выборке). Контрольные эксперименты подтверждают, что этот эффект обусловлен именно многоагентной структурой, а не пропускной способностью или временным охватом. Причинное вмешательство демонстрирует точечное нарушение свойств (~15% снижение по целевому свойству, <3% по остальным). Сравнение базовых моделей выявляет, что перцептивный prior определяет коммуницируемое: DINOv2 доминирует в задачах с пространственно-видимой физикой рампы (98.3% против 95.1%), тогда как V-JEPA 2 лидирует в физике столкновений, основанной только на динамике (87.4% против 77.7%, d=2.74). Контрольные эксперименты с согласованием масштаба (d=3.37) и количества кадров (d=6.53) полностью приписывают этот разрыв предварительному обучению на видео. Замороженный протокол поддерживает планирование, обусловленное действиями (91.5%), с контрафактическим анализом скоростей (r=0.780). Валидация на реальных видеозаписях Physics 101 подтверждает точность 85.6% в сравнении масс для незнакомых объектов, причем временная динамика дает прирост +11.2% сверх статического внешнего вида, композиционность при масштабировании числа агентов воспроизводится на уровне 90% для 4 агентов, а причинное вмешательство распространяется на реальное видео (d=1.87, p=0.022).
English
Can multi-agent communication pressure extract discrete, compositional representations of invisible physical properties from frozen video features? We show that agents communicating through a Gumbel-Softmax bottleneck with iterated learning develop positionally disentangled protocols for latent properties (elasticity, friction, mass ratio) without property labels or supervision on message structure. With 4 agents, 100% of 80 seeds converge to near-perfect compositionality (PosDis=0.999, holdout 98.3%). Controls confirm multi-agent structure -- not bandwidth or temporal coverage -- drives this effect. Causal intervention shows surgical property disruption (~15% drop on targeted property, <3% on others). A controlled backbone comparison reveals that the perceptual prior determines what is communicable: DINOv2 dominates on spatially-visible ramp physics (98.3% vs 95.1%), while V-JEPA 2 dominates on dynamics-only collision physics (87.4% vs 77.7%, d=2.74). Scale-matched (d=3.37) and frame-matched (d=6.53) controls attribute this gap entirely to video-native pretraining. The frozen protocol supports action-conditioned planning (91.5%) with counterfactual velocity reasoning (r=0.780). Validation on Physics 101 real camera footage confirms 85.6% mass-comparison accuracy on unseen objects, temporal dynamics contributing +11.2% beyond static appearance, agent-scaling compositionality replicating at 90% for 4 agents, and causal intervention extending to real video (d=1.87, p=0.022).