Artigos de pesquisa em IA selecionados diariamente com traduções
Agentes de pesquisa profunda, impulsionados por Modelos de Linguagem de Grande Escala (LLMs), estão avançando rapidamente; no entanto, seu desempenho frequentemente atinge um platô ao gerar relatórios de pesquisa complexos e de longo formato usando algoritmos de escalonamento genéricos em tempo de teste. Inspirados pela natureza iterativa da pesquisa humana, que envolve ciclos de busca, raciocínio e revisão, propomos o Test-Time Diffusion Deep Researcher (TTD-DR). Este novo framework conceitua a geração de relatórios de pesquisa como um processo de difusão. O TTD-DR inicia esse processo com um rascunho preliminar, um esqueleto atualizável que serve como base evolutiva para guiar a direção da pesquisa. O rascunho é então refinado iterativamente por meio de um processo de "desruído", que é dinamicamente informado por um mecanismo de recuperação que incorpora informações externas a cada etapa. O processo central é ainda aprimorado por um algoritmo auto-evolutivo aplicado a cada componente do fluxo de trabalho do agente, garantindo a geração de contexto de alta qualidade para o processo de difusão. Esse design centrado no rascunho torna o processo de escrita de relatórios mais oportuno e coerente, ao mesmo tempo que reduz a perda de informação durante o processo iterativo de busca. Demonstramos que nosso TTD-DR alcança resultados de ponta em uma ampla gama de benchmarks que exigem busca intensiva e raciocínio multi-hop, superando significativamente os agentes de pesquisa profunda existentes.
A quantização dos pesos de modelos de linguagem de grande escala (LLMs) de 16 bits para larguras de bits menores é a abordagem de facto para implantar transformadores massivos em aceleradores mais acessíveis. O GPTQ surgiu como um dos métodos padrão para quantização pós-treinamento em uma única etapa em escala de LLM. No entanto, seu funcionamento interno é descrito como uma sequência de atualizações algébricas ad-hoc que obscurecem qualquer significado geométrico ou garantias de pior caso. Neste trabalho, mostramos que, quando executado de trás para frente (da última para a primeira dimensão) em uma camada linear, o GPTQ é matematicamente idêntico ao algoritmo do plano mais próximo de Babai para o clássico problema do vetor mais próximo (CVP) em um reticulado definido pela matriz Hessiana das entradas da camada. Essa equivalência é baseada em um argumento matemático sofisticado e tem duas consequências analíticas: (i) a etapa de propagação de erro do GPTQ ganha uma interpretação geométrica intuitiva; (ii) o GPTQ herda o limite superior de erro do algoritmo de Babai sob a condição de não recorte. Juntos, esses resultados colocam o GPTQ em uma base teórica sólida e abrem as portas para importar décadas de progresso em algoritmos de reticulados para o design de futuros algoritmos de quantização para modelos com bilhões de parâmetros.
Apresentamos o MMBench-GUI, um benchmark hierárquico para avaliar agentes de automação de GUI em plataformas Windows, macOS, Linux, iOS, Android e Web. Ele compreende quatro níveis: Compreensão de Conteúdo de GUI, Fundamentação de Elementos, Automação de Tarefas e Colaboração em Tarefas, abrangendo habilidades essenciais para agentes de GUI. Além disso, propomos uma nova métrica chamada Área de Eficiência-Qualidade (EQA) para avaliar a eficiência de execução de agentes de GUI em cenários de automação online. Por meio do MMBench-GUI, identificamos a fundamentação visual precisa como um determinante crítico para o sucesso geral das tarefas, destacando os benefícios substanciais de frameworks modulares que integram módulos especializados de fundamentação. Além disso, para alcançar uma automação de GUI confiável, um agente requer fortes habilidades de planejamento de tarefas e generalização entre plataformas, com memória de contexto longo, um amplo espaço de ações e raciocínio de longo prazo desempenhando um papel crucial. Mais importante ainda, a eficiência das tarefas permanece uma dimensão criticamente subexplorada, e todos os modelos sofrem com ineficiências substanciais, com passos redundantes excessivos, mesmo quando as tarefas são finalmente concluídas. A integração de localização precisa, planejamento eficaz e estratégias de parada antecipada é indispensável para permitir uma automação de GUI verdadeiramente eficiente e escalável. Nosso código de benchmark, dados de avaliação e ambiente de execução estarão publicamente disponíveis em https://github.com/open-compass/MMBench-GUI.
Modelos de linguagem multimodal de grande escala (MLLMs) têm alcançado avanços notáveis, impulsionados principalmente por sua capacidade de processar contextos cada vez mais longos e complexos, como imagens de alta resolução, sequências de vídeo estendidas e entradas de áudio prolongadas. Embora essa capacidade amplie significativamente as funcionalidades dos MLLMs, ela introduz desafios computacionais substanciais, principalmente devido à complexidade quadrática dos mecanismos de autoatenção com um grande número de tokens de entrada. Para mitigar esses gargalos, a compressão de tokens surgiu como uma abordagem promissora e crítica, reduzindo eficientemente o número de tokens durante o treinamento e a inferência. Neste artigo, apresentamos o primeiro levantamento sistemático e síntese do campo emergente da compressão de tokens em contextos longos multimodais. Reconhecendo que estratégias de compressão eficazes estão profundamente ligadas às características e redundâncias únicas de cada modalidade, categorizamos as abordagens existentes com base em seu foco principal de dados, permitindo que os pesquisadores acessem e aprendam métodos adaptados às suas áreas de interesse específicas: (1) compressão centrada em imagens, que aborda a redundância espacial em dados visuais; (2) compressão centrada em vídeo, que lida com a redundância espaço-temporal em sequências dinâmicas; e (3) compressão centrada em áudio, que trata da redundância temporal e espectral em sinais acústicos. Além dessa categorização orientada por modalidade, detalhamos ainda mais os métodos com base em seus mecanismos subjacentes, incluindo abordagens baseadas em transformação, similaridade, atenção e consultas. Ao fornecer uma visão geral abrangente e estruturada, este levantamento visa consolidar o progresso atual, identificar desafios-chave e inspirar futuras direções de pesquisa nesse domínio em rápida evolução. Também mantemos um repositório público para acompanhar e atualizar continuamente os avanços mais recentes nessa área promissora.
A avaliação de Modelos de Linguagem de Grande Escala (LLMs) está cada vez mais dependente de outros LLMs atuando como juízes. No entanto, os paradigmas de avaliação atuais geralmente produzem uma única pontuação ou classificação, respondendo qual modelo é melhor, mas não o porquê. Embora essenciais para benchmarking, essas pontuações de alto nível obscurecem as razões específicas e acionáveis por trás do desempenho de um modelo. Para preencher essa lacuna, introduzimos o CLEAR, um pacote interativo e de código aberto para análise de erros baseada em LLMs. O CLEAR primeiro gera feedback textual por instância, em seguida, cria um conjunto de problemas de erro em nível de sistema e quantifica a prevalência de cada problema identificado. Nosso pacote também fornece aos usuários um painel interativo que permite uma análise abrangente de erros por meio de visualizações agregadas, aplica filtros interativos para isolar problemas específicos ou faixas de pontuação e detalha as instâncias individuais que exemplificam um padrão comportamental particular. Demonstramos a análise do CLEAR para benchmarks de RAG e Matemática e destacamos sua utilidade por meio de um estudo de caso com usuários.
Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais adaptados para tarefas subsequentes por meio de métodos de aprendizado por reforço (RL), como o Group Relative Policy Optimization (GRPO), que frequentemente exigem milhares de execuções para aprender novas tarefas. Argumentamos que a natureza interpretável da linguagem pode fornecer um meio de aprendizado muito mais rico para LLMs, em comparação com gradientes de política derivados de recompensas esparsas e escalares. Para testar isso, introduzimos o GEPA (Genetic-Pareto), um otimizador de prompts que incorpora profundamente a reflexão em linguagem natural para aprender regras de alto nível por meio de tentativa e erro. Dado qualquer sistema de IA que contenha um ou mais prompts de LLM, o GEPA amostra trajetórias em nível de sistema (por exemplo, raciocínio, chamadas de ferramentas e saídas de ferramentas) e reflete sobre elas em linguagem natural para diagnosticar problemas, propor e testar atualizações de prompts, e combinar lições complementares da fronteira de Pareto de suas próprias tentativas. Como resultado do design do GEPA, ele pode frequentemente transformar até mesmo algumas execuções em um grande ganho de qualidade. Em quatro tarefas, o GEPA supera o GRPO em média 10% e até 20%, enquanto utiliza até 35 vezes menos execuções. O GEPA também supera o principal otimizador de prompts, MIPROv2, em mais de 10% em dois LLMs, e demonstra resultados promissores como uma estratégia de busca em tempo de inferência para otimização de código.
Modelos de linguagem (LMs) são suscetíveis ao hacking de recompensa em contexto, onde eles exploram falhas em especificações ou rubricas escritas contaminadas ou defeituosas para alcançar pontuações altas sem cumprir a verdadeira intenção do usuário. Introduzimos a Autocorreção de Especificação (SSC), uma nova estrutura em tempo de teste que permite a um LM identificar e corrigir falhas em sua própria especificação orientadora. A SSC emprega um processo de inferência em várias etapas, onde o modelo primeiro gera uma resposta com base em uma especificação potencialmente contaminada, critica sua saída e, em seguida, revisa a própria especificação para remover a brecha explorável. Uma resposta final e mais robusta é então gerada usando essa especificação autocorrigida. Em experimentos que abrangem tarefas de escrita criativa e codificação agentiva com vários LMs, demonstramos que, embora os modelos inicialmente manipulem especificações contaminadas em 50-70\% dos casos, o processo SSC reduz essa vulnerabilidade em mais de 90\%. Esse reparo dinâmico ocorre em tempo de inferência, não requer modificação de pesos e leva a um comportamento do modelo mais robustamente alinhado. Código disponível em https://github.com/vicgalle/specification-self-correction.
Embora os modelos de direção autônoma de ponta a ponta apresentem resultados promissores, sua implantação prática é frequentemente dificultada por tamanhos de modelo grandes, uma dependência de sensores LiDAR caros e representações de recursos BEV computacionalmente intensivas. Isso limita sua escalabilidade, especialmente para veículos de mercado de massa equipados apenas com câmeras. Para enfrentar esses desafios, propomos o PRIX (Plan from Raw Pixels). Nossa arquitetura de direção de ponta a ponta nova e eficiente opera utilizando apenas dados de câmera, sem representação explícita de BEV e dispensando a necessidade de LiDAR. O PRIX aproveita um extrator de características visuais acoplado a um cabeçalho de planejamento generativo para prever trajetórias seguras diretamente a partir de entradas de pixels brutos. Um componente central de nossa arquitetura é o Context-aware Recalibration Transformer (CaRT), um módulo novo projetado para aprimorar efetivamente características visuais de múltiplos níveis para um planejamento mais robusto. Demonstramos por meio de experimentos abrangentes que o PRIX alcança desempenho de ponta nos benchmarks NavSim e nuScenes, equiparando-se às capacidades de planejadores de difusão multimodais maiores, ao mesmo tempo em que é significativamente mais eficiente em termos de velocidade de inferência e tamanho do modelo, tornando-o uma solução prática para implantação no mundo real. Nosso trabalho é de código aberto e o código estará disponível em https://maxiuw.github.io/prix.
O Chat de Vídeo com IA surge como um novo paradigma para Comunicação em Tempo Real (RTC), onde um dos interlocutores não é um humano, mas um Modelo de Linguagem Multimodal de Grande Escala (MLLM). Isso torna a interação entre humanos e IA mais intuitiva, como se estivessem conversando face a face com uma pessoa real. No entanto, isso apresenta desafios significativos em relação à latência, pois a inferência do MLLM consome a maior parte do tempo de resposta, deixando muito pouco tempo para o streaming de vídeo. Devido à incerteza e instabilidade da rede, a latência de transmissão se torna um gargalo crítico que impede a IA de se comportar como uma pessoa real. Para resolver isso, propomos o Artic, um framework de Comunicação em Tempo Real orientado para IA, que explora a mudança nos requisitos de rede de "humanos assistindo vídeo" para "IA compreendendo vídeo". Para reduzir drasticamente a taxa de bits enquanto mantém a precisão do MLLM, propomos o Streaming de Vídeo Consciente do Contexto, que reconhece a importância de cada região do vídeo para o chat e aloca a taxa de bits quase exclusivamente para as regiões importantes para a conversa. Para evitar a retransmissão de pacotes, propomos a Taxa de Quadros Adaptável Resiliente a Perdas, que aproveita quadros anteriores para substituir quadros perdidos/atrasados, evitando o desperdício de taxa de bits. Para avaliar o impacto da qualidade do streaming de vídeo na precisão do MLLM, construímos o primeiro benchmark, chamado Benchmark de Compreensão de Vídeo Degradado (DeViBench). Por fim, discutimos algumas questões em aberto e soluções em andamento para o Chat de Vídeo com IA.
Para compreender e identificar os riscos sem precedentes representados pelos modelos de inteligência artificial (IA) em rápido avanço, este relatório apresenta uma avaliação abrangente de seus riscos de fronteira. Com base na análise E-T-C (ambiente de implantação, fonte de ameaça, capacidade habilitadora) do Framework de Gerenciamento de Riscos de IA de Fronteira (v1.0) (SafeWork-F1-Framework), identificamos riscos críticos em sete áreas: ofensiva cibernética, riscos biológicos e químicos, persuasão e manipulação, pesquisa e desenvolvimento (P\&D) autônomo de IA descontrolado, engano e planejamento estratégico, autorreplicação e conluio. Guiados pela "Lei AI-45^circ", avaliamos esses riscos usando "linhas vermelhas" (limiares intoleráveis) e "linhas amarelas" (indicadores de alerta precoce) para definir zonas de risco: verde (risco gerenciável para implantação rotineira e monitoramento contínuo), amarela (exigindo mitigações reforçadas e implantação controlada) e vermelha (necessitando suspensão do desenvolvimento e/ou implantação). Resultados experimentais mostram que todos os modelos recentes de IA de fronteira residem nas zonas verde e amarela, sem cruzar as linhas vermelhas. Especificamente, nenhum modelo avaliado cruza a linha amarela para riscos de ofensiva cibernética ou P\&D de IA descontrolado. Para autorreplicação, e engano e planejamento estratégico, a maioria dos modelos permanece na zona verde, exceto certos modelos de raciocínio na zona amarela. Em persuasão e manipulação, a maioria dos modelos está na zona amarela devido à sua influência eficaz sobre humanos. Para riscos biológicos e químicos, não podemos descartar a possibilidade de a maioria dos modelos residir na zona amarela, embora modelagem detalhada de ameaças e avaliação aprofundada sejam necessárias para fazer afirmações adicionais. Este trabalho reflete nossa compreensão atual dos riscos de fronteira da IA e urge ação coletiva para mitigar esses desafios.
Na Segmentação Semântica Adaptativa de Domínio Não Supervisionado (UDA-SS), um modelo é treinado com dados rotulados de um domínio de origem (por exemplo, imagens sintéticas) e adaptado a um domínio de destino não rotulado (por exemplo, imagens do mundo real) sem acesso às anotações do domínio de destino. Os métodos existentes de UDA-SS frequentemente enfrentam dificuldades para equilibrar detalhes locais refinados com informações contextuais globais, resultando em erros de segmentação em regiões complexas. Para resolver isso, introduzimos o módulo de Refinamento Adaptativo de Características (AFR), que melhora a precisão da segmentação refinando características de alta resolução usando prioridades semânticas de logits de baixa resolução. O AFR também integra componentes de alta frequência, que capturam estruturas refinadas e fornecem informações cruciais sobre os limites, melhorando a delimitação de objetos. Além disso, o AFR equilibra adaptativamente informações locais e globais por meio de atenção guiada por incerteza, reduzindo classificações incorretas. Seu design leve permite uma integração perfeita em métodos UDA baseados em HRDA, levando a um desempenho de segmentação de última geração. Nossa abordagem melhora os métodos existentes de UDA-SS em 1,05% mIoU em GTA V --> Cityscapes e 1,04% mIoU em Synthia --> Cityscapes. A implementação do nosso framework está disponível em: https://github.com/Masrur02/AFRDA.