Construindo a Web para Agentes: Um Framework Declarativo para Interação Agente-Web

Resumo

A crescente implantação de agentes de IA autónomos na web é dificultada por um desalinhamento fundamental: os agentes têm de inferir *affordances* a partir de interfaces de utilizador concebidas para humanos, o que leva a interações frágeis, ineficientes e inseguras. Para resolver este problema, introduzimos o VOIX, um *framework* nativo da web que permite aos *websites* expor capacidades confiáveis, auditáveis e que preservam a privacidade para agentes de IA através de elementos HTML simples e declarativos. O VOIX introduz as tags `<tool>` e `<context>`, permitindo aos programadores definir explicitamente as ações disponíveis e o estado relevante, criando assim um contrato claro e legível por máquina para o comportamento do agente. Esta abordagem transfere o controlo para o programador do *website*, preservando simultaneamente a privacidade do utilizador ao desligar as interações conversacionais do *website*. Avaliámos a praticidade, a facilidade de aprendizagem e a expressividade do *framework* num estudo de *hackathon* de três dias com 16 programadores. Os resultados demonstram que os participantes, independentemente da experiência anterior, foram capazes de construir rapidamente aplicações web diversas e funcionais, capacitadas para agentes. Em última análise, este trabalho fornece um mecanismo fundamental para concretizar a Web Agência, permitindo um futuro de colaboração humana-IA perfeita e segura na web.

English

The increasing deployment of autonomous AI agents on the web is hampered by a fundamental misalignment: agents must infer affordances from human-oriented user interfaces, leading to brittle, inefficient, and insecure interactions. To address this, we introduce VOIX, a web-native framework that enables websites to expose reliable, auditable, and privacy-preserving capabilities for AI agents through simple, declarative HTML elements. VOIX introduces <tool> and <context> tags, allowing developers to explicitly define available actions and relevant state, thereby creating a clear, machine-readable contract for agent behavior. This approach shifts control to the website developer while preserving user privacy by disconnecting the conversational interactions from the website. We evaluated the framework's practicality, learnability, and expressiveness in a three-day hackathon study with 16 developers. The results demonstrate that participants, regardless of prior experience, were able to rapidly build diverse and functional agent-enabled web applications. Ultimately, this work provides a foundational mechanism for realizing the Agentic Web, enabling a future of seamless and secure human-AI collaboration on the web.