Agentes LLM podem visualizar repositórios de código.

Resumo

Agentes de codificação baseados em modelos de linguagem de grande escala têm demonstrado desempenho robusto em tarefas de engenharia de software. No entanto, a maioria desses agentes consome repositórios quase inteiramente como texto, o que difere da forma como desenvolvedores humanos utilizam estruturas visuais, como hierarquias de pastas e relações de dependência, para se orientar em bases de código extensas. Com modelos de linguagem de grande escala multimodais (MLLMs), permanece uma questão em aberto se os agentes podem se beneficiar efetivamente de representações visuais de repositórios. Este artigo apresenta o primeiro estudo empírico sistemático sobre representações visuais de repositórios para agentes baseados em LLMs na resolução de problemas em nível de repositório. Avaliamos quatro modelos multimodais recentes. Nossos resultados mostram que uma configuração estritamente baseada em visão degrada a precisão e aumenta o custo de tokens, pois os agentes carecem de detalhes simbólicos suficientes e compensam com consultas visuais repetidas. Em contraste, a integração de gráficos visuais da estrutura do repositório como uma modalidade suplementar, juntamente com interfaces de texto padrão, ajuda os agentes a compreender a estrutura de forma mais eficiente: o consumo de tokens de entrada diminui em até 26%, enquanto a precisão na resolução de problemas é mantida ou melhorada. A visualização é mais útil durante a localização de falhas e quando o agente controla autonomamente a profundidade da exploração. Essas descobertas apontam para um design híbrido prático de texto e visão para a próxima geração de agentes de codificação.

English

Coding agents powered by large language models have demonstrated strong performance on software engineering tasks. Yet most agents consume repositories almost entirely as text, which differs from how human developers use visual structure such as folder hierarchies and dependency relationships to orient themselves in large codebases. With multimodal large language models (MLLMs), it is an open question whether agents can effectively benefit from visual representations of repositories. This paper presents the first systematic empirical study of visual repository representations for LLM-based agents on repository-level issue resolution. We evaluate four recent multimodal models. Our results show that a strictly vision-only setup degrades accuracy and increases token cost, because agents lack sufficient symbolic detail and compensate with repeated visual queries. In contrast, integrating visual graphs of repository structure as a supplementary modality alongside standard text interfaces helps agents understand structure more efficiently: input token consumption decreases by up to 26% while issue-resolution accuracy is maintained or improved. Visualization is most useful during fault localization and when the agent autonomously controls exploration depth. These findings point to a practical hybrid text-and-vision design for next-generation coding agents.