Aufkommende kompositionelle Kommunikation über latente Welteigenschaften
Emergent Compositional Communication for Latent World Properties
March 18, 2026
Autoren: Tomek Kaszyński
cs.AI
Zusammenfassung
Kann Kommunikationsdruck in Multi-Agenten-Systemen diskrete, kompositionelle Repräsentationen unsichtbarer physikalischer Eigenschaften aus eingefrorenen Videomerkmalen extrahieren? Wir zeigen, dass Agenten, die über einen Gumbel-Softmax-Flaschenhals mit iterativem Lernen kommunizieren, positionell entflochtene Protokolle für latente Eigenschaften (Elastizität, Reibung, Massenverhältnis) entwickeln – ohne Eigenschaftslabels oder Überwachung der Nachrichtenstruktur. Bei 4 Agenten konvergieren 100% von 80 Seeds zu nahezu perfekter Kompositionalität (PosDis=0,999, Holdout 98,3%). Kontrollexperimente bestätigen, dass die Multi-Agenten-Struktur – nicht Bandbreite oder zeitliche Abdeckung – diesen Effekt treibt. Kausale Interventionen zeigen gezielte Eigenschaftsstörungen (~15% Rückgang bei der Zielgröße, <3% bei anderen). Ein kontrollierter Backbone-Vergleich offenbart, dass das perzeptive Vorwissen bestimmt, was kommunizierbar ist: DINOv2 dominiert bei räumlich sichtbarer Rampenphysik (98,3% vs. 95,1%), während V-JEPA 2 bei rein dynamischer Kollisionsphysik dominiert (87,4% vs. 77,7%, d=2,74). Skalenangepasste (d=3,37) und rahmenangepasste (d=6,53) Kontrollen führen diese Lücke vollständig auf video-natives Pre-training zurück. Das eingefrorene Protokoll unterstützt aktionskonditionierte Planung (91,5%) mit kontrafaktischer Geschwindigkeitsreasoning (r=0,780). Die Validierung mit Realvideo-Material von Physics 101 bestätigt 85,6% Genauigkeit beim Massenvergleich unbekannter Objekte, wobei zeitliche Dynamik +11,2% über das statische Erscheinungsbild hinaus beiträgt, die kompositionelle Skalierung mit Agenten bei 4 Agenten zu 90% repliziert wird und kausale Interventionen auf Realvideo erweitert werden können (d=1,87, p=0,022).
English
Can multi-agent communication pressure extract discrete, compositional representations of invisible physical properties from frozen video features? We show that agents communicating through a Gumbel-Softmax bottleneck with iterated learning develop positionally disentangled protocols for latent properties (elasticity, friction, mass ratio) without property labels or supervision on message structure. With 4 agents, 100% of 80 seeds converge to near-perfect compositionality (PosDis=0.999, holdout 98.3%). Controls confirm multi-agent structure -- not bandwidth or temporal coverage -- drives this effect. Causal intervention shows surgical property disruption (~15% drop on targeted property, <3% on others). A controlled backbone comparison reveals that the perceptual prior determines what is communicable: DINOv2 dominates on spatially-visible ramp physics (98.3% vs 95.1%), while V-JEPA 2 dominates on dynamics-only collision physics (87.4% vs 77.7%, d=2.74). Scale-matched (d=3.37) and frame-matched (d=6.53) controls attribute this gap entirely to video-native pretraining. The frozen protocol supports action-conditioned planning (91.5%) with counterfactual velocity reasoning (r=0.780). Validation on Physics 101 real camera footage confirms 85.6% mass-comparison accuracy on unseen objects, temporal dynamics contributing +11.2% beyond static appearance, agent-scaling compositionality replicating at 90% for 4 agents, and causal intervention extending to real video (d=1.87, p=0.022).