Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o GLM-4.5, um modelo de linguagem de grande escala (LLM) de Mistura de Especialistas (MoE) de código aberto, com 355 bilhões de parâmetros totais e 32 bilhões de parâmetros ativados, que incorpora um método de raciocínio híbrido que suporta modos de pensamento e resposta direta. Por meio de treinamento em múltiplas etapas com 23 trilhões de tokens e pós-treinamento abrangente com iteração de modelos especializados e aprendizado por reforço, o GLM-4.5 alcança um desempenho robusto em tarefas de agentes, raciocínio e codificação (ARC), obtendo 70,1% no TAU-Bench, 91,0% no AIME 24 e 64,2% no SWE-bench Verified. Com muito menos parâmetros do que vários concorrentes, o GLM-4.5 ocupa o 3º lugar geral entre todos os modelos avaliados e o 2º lugar em benchmarks de agentes. Lançamos tanto o GLM-4.5 (355 bilhões de parâmetros) quanto uma versão compacta, o GLM-4.5-Air (106 bilhões de parâmetros), para avançar a pesquisa em sistemas de IA de raciocínio e agentes. Código, modelos e mais informações estão disponíveis em https://github.com/zai-org/GLM-4.5.
O virtual try-on tem como objetivo sintetizar uma imagem realista de uma pessoa vestindo uma peça de roupa específica, mas a modelagem precisa da correspondência entre a roupa e o corpo continua sendo um desafio persistente, especialmente sob variações de pose e aparência. Neste artigo, propomos o Voost - um framework unificado e escalável que aprende conjuntamente o virtual try-on e o try-off com um único transformer de difusão. Ao modelar ambas as tarefas em conjunto, o Voost permite que cada par roupa-pessoa supervisione ambas as direções e suporte condicionamento flexível sobre a direção de geração e a categoria da roupa, aprimorando o raciocínio relacional entre roupa e corpo sem redes específicas para tarefas, perdas auxiliares ou rótulos adicionais. Além disso, introduzimos duas técnicas de inferência: o escalonamento de temperatura de atenção para robustez a variações de resolução ou máscara, e a amostragem autocorretiva que aproveita a consistência bidirecional entre as tarefas. Experimentos extensivos demonstram que o Voost alcança resultados de ponta em benchmarks tanto de try-on quanto de try-off, superando consistentemente baselines fortes em precisão de alinhamento, fidelidade visual e generalização.
Agentes baseados em Grandes Modelos de Linguagem (LLMs) se destacam em diversas tarefas, mas sofrem com uma memória procedural frágil que é manualmente projetada ou entrelaçada em parâmetros estáticos. Neste trabalho, investigamos estratégias para dotar agentes de uma memória procedural aprendível, atualizável e contínua. Propomos o Memp, que destila trajetórias passadas do agente em instruções detalhadas, passo a passo, e abstrações de nível superior, semelhantes a scripts, e exploramos o impacto de diferentes estratégias para Construção, Recuperação e Atualização da memória procedural. Acoplado a um regime dinâmico que atualiza, corrige e deprecia continuamente seus conteúdos, este repositório evolui em sincronia com novas experiências. A avaliação empírica em TravelPlanner e ALFWorld mostra que, à medida que o repositório de memória é refinado, os agentes alcançam taxas de sucesso cada vez maiores e maior eficiência em tarefas análogas. Além disso, a memória procedural construída a partir de um modelo mais forte mantém seu valor: migrar a memória procedural para um modelo mais fraco resulta em ganhos substanciais de desempenho.
O surgimento dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) impulsionou o desenvolvimento de agentes autônomos que operam em Interfaces Gráficas de Usuário (GUIs) utilizando apenas entrada visual. Um desafio fundamental é o robusto ancoramento de instruções em linguagem natural. Isso requer um alinhamento espacial preciso, que localiza com exatidão as coordenadas de cada elemento, e, mais criticamente, um alinhamento semântico correto, que associa as instruções ao elemento de UI funcionalmente apropriado. Embora o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tenha se mostrado eficaz para melhorar o alinhamento espacial nesses MLLMs, descobrimos que a exploração ineficiente cria gargalos no alinhamento semântico, impedindo que os modelos aprendam associações semânticas complexas. Para resolver esse problema de exploração, apresentamos o Adaptive Exploration Policy Optimization (AEPO), uma nova estrutura de otimização de políticas. O AEPO emprega uma estratégia de geração de múltiplas respostas para forçar uma exploração mais ampla, que é então guiada por uma função de recompensa de exploração adaptativa (AER) teoricamente fundamentada, derivada dos princípios de eficiência eta=U/C. Nossos modelos treinados com AEPO, InfiGUI-G1-3B e InfiGUI-G1-7B, estabelecem novos resultados de ponta em vários benchmarks desafiadores de ancoramento em GUI, alcançando melhorias relativas significativas de até 9,0% em relação à linha de base RLVR ingênua em benchmarks projetados para testar generalização e compreensão semântica. Os recursos estão disponíveis em https://github.com/InfiXAI/InfiGUI-G1.
Recentemente, os Modelos de Raciocínio de Grande Escala (LRMs) demonstraram capacidades notáveis no raciocínio de código ao escalar o comprimento da Cadeia de Pensamento (CoT). No entanto, traços de raciocínio excessivamente longos introduzem desafios substanciais em termos de custo de treinamento, latência de inferência e viabilidade de implantação. Embora diversas abordagens de compressão de CoT tenham surgido para enfrentar esse desafio, elas enfrentam trade-offs inerentes: métodos em nível de token frequentemente perturbam a coerência sintática e lógica, enquanto métodos em nível de etapa baseados em perplexidade falham em capturar de forma confiável as etapas de raciocínio logicamente críticas. Neste artigo, propomos o ASAP (Pruning Baseado em Surpresa e Orientado por Âncora), uma nova estrutura de compressão de CoT de granularidade grossa para fina. O ASAP primeiro realiza uma poda orientada por âncora para preservar a estrutura central de raciocínio, reduzindo eficientemente o espaço de busca para o processamento subsequente. Em seguida, ele permite uma poda consciente da lógica ao selecionar etapas de raciocínio essenciais com base em uma nova métrica de surpresa do primeiro token. Por fim, o ASAP ensina os modelos a gerar e utilizar de forma autônoma essas CoTs concisas no momento da inferência, permitindo um raciocínio eficiente em tarefas de codificação. Experimentos mostram que o ASAP alcança precisão de ponta em vários benchmarks de geração de código, reduzindo substancialmente os custos de treinamento e inferência. No desafiador benchmark LiveCodeBench v4_v5, nossa abordagem reduz a geração de tokens em 23,5% e a latência de inferência em 43,5% em comparação com a linha de base mais forte, enquanto alcança uma precisão competitiva de 36,19% em Pass@1. Nossos resultados destacam uma direção promissora para a construção de LRMs poderosos e eficientes.
Ativações massivas são valores escalares nos estados ocultos de transformadores que atingem valores ordens de magnitude maiores do que as ativações típicas e têm se mostrado críticos para a funcionalidade do modelo. Embora trabalhos anteriores tenham caracterizado esses fenômenos em modelos totalmente treinados, a dinâmica temporal de seu surgimento durante o treinamento permanece pouco compreendida. Apresentamos a primeira análise abrangente do desenvolvimento de ativações massivas ao longo do treinamento de transformadores, utilizando a família de modelos Pythia como nosso campo de testes. Através de uma análise sistemática de vários tamanhos de modelos em múltiplos pontos de verificação de treinamento, demonstramos que o surgimento de ativações massivas segue padrões matemáticos previsíveis que podem ser modelados com precisão usando uma função logarítmica modulada exponencialmente com cinco parâmetros-chave. Desenvolvemos uma estrutura de aprendizado de máquina para prever esses parâmetros matemáticos apenas a partir de especificações arquitetônicas, alcançando alta precisão para o comportamento em estado estacionário e precisão moderada para o tempo e magnitude de surgimento. Essas descobertas permitem que arquitetos prevejam e potencialmente controlem aspectos-chave do surgimento de ativações massivas por meio de escolhas de design, com implicações significativas para a estabilidade do modelo, duração do ciclo de treinamento, interpretabilidade e otimização. Nossos resultados demonstram que o surgimento de ativações massivas é governado pelo design do modelo e pode ser antecipado, e potencialmente controlado, antes que o treinamento comece.
Modelos Visão-Linguagem (VLMs) têm demonstrado capacidades notáveis de generalização em uma ampla gama de tarefas. No entanto, seu desempenho frequentemente permanece subótimo quando aplicado diretamente a cenários específicos de downstream sem adaptação específica para a tarefa. Para aumentar sua utilidade enquanto preserva a eficiência de dados, pesquisas recentes têm se concentrado cada vez mais em métodos de adaptação não supervisionados que não dependem de dados rotulados. Apesar do crescente interesse nessa área, ainda há uma falta de uma pesquisa unificada e orientada para tarefas dedicada à adaptação não supervisionada de VLMs. Para preencher essa lacuna, apresentamos uma visão geral abrangente e estruturada do campo. Propomos uma taxonomia baseada na disponibilidade e natureza dos dados visuais não rotulados, categorizando as abordagens existentes em quatro paradigmas principais: Transferência Sem Dados (nenhum dado), Transferência de Domínio Não Supervisionada (dados abundantes), Adaptação Episódica em Tempo de Teste (dados em lote) e Adaptação Online em Tempo de Teste (dados em fluxo). Dentro desse framework, analisamos as metodologias centrais e estratégias de adaptação associadas a cada paradigma, com o objetivo de estabelecer uma compreensão sistemática do campo. Além disso, revisamos benchmarks representativos em diversas aplicações e destacamos desafios em aberto e direções promissoras para pesquisas futuras. Um repositório ativamente mantido da literatura relevante está disponível em https://github.com/tim-learn/Awesome-LabelFree-VLMs.
Neural Radiance Fields (NeRF) e Gaussian Splatting (GS) transformaram recentemente a representação e renderização de cenas 3D. O NeRF alcança síntese de novas vistas de alta fidelidade ao aprender representações volumétricas por meio de redes neurais, mas sua codificação implícita torna a edição e a interação física desafiadoras. Em contraste, o GS representa cenas como coleções explícitas de primitivas Gaussianas, permitindo renderização em tempo real, treinamento mais rápido e manipulação mais intuitiva. Essa estrutura explícita tornou o GS particularmente adequado para edição interativa e integração com simulações baseadas em física. Neste artigo, apresentamos o GENIE (Gaussian Encoding for Neural Radiance Fields Interactive Editing), um modelo híbrido que combina a qualidade de renderização fotorrealista do NeRF com a representação editável e estruturada do GS. Em vez de usar harmônicos esféricos para modelagem de aparência, atribuímos a cada Gaussiana um embedding de características treinável. Esses embeddings são usados para condicionar uma rede NeRF com base nas k Gaussianas mais próximas de cada ponto de consulta. Para tornar esse condicionamento eficiente, introduzimos o Ray-Traced Gaussian Proximity Search (RT-GPS), uma busca rápida pela Gaussiana mais próxima baseada em um pipeline de ray tracing modificado. Também integramos uma grade de hash multi-resolução para inicializar e atualizar as características Gaussianas. Juntos, esses componentes permitem edição em tempo real com consciência de localidade: à medida que as primitivas Gaussianas são reposicionadas ou modificadas, sua influência interpolada é imediatamente refletida na saída renderizada. Ao combinar as forças das representações implícitas e explícitas, o GENIE suporta manipulação intuitiva de cenas, interação dinâmica e compatibilidade com simulação física, preenchendo a lacuna entre edição baseada em geometria e renderização neural. O código pode ser encontrado em (https://github.com/MikolajZielinski/genie).
O sonho de criar assistentes de IA tão capazes e versáteis quanto o fictício J.A.R.V.I.S. do Homem de Ferro há muito cativa a imaginação. Com a evolução dos modelos de linguagem grandes (multimodais) ((M)LLMs), esse sonho está mais próximo da realidade, pois os Agentes baseados em (M)LLMs que utilizam dispositivos computacionais (por exemplo, computadores e telefones móveis) operando dentro dos ambientes e interfaces (por exemplo, Interface Gráfica do Usuário (GUI)) fornecidos pelos sistemas operacionais (SO) para automatizar tarefas avançaram significativamente. Este artigo apresenta uma pesquisa abrangente desses agentes avançados, designados como Agentes de SO. Começamos elucidando os fundamentos dos Agentes de SO, explorando seus principais componentes, incluindo o ambiente, espaço de observação e espaço de ação, e delineando capacidades essenciais como compreensão, planejamento e fundamentação. Em seguida, examinamos metodologias para construir Agentes de SO, com foco em modelos de fundação específicos de domínio e frameworks de agentes. Uma revisão detalhada dos protocolos de avaliação e benchmarks destaca como os Agentes de SO são avaliados em diversas tarefas. Por fim, discutimos os desafios atuais e identificamos direções promissoras para pesquisas futuras, incluindo segurança e privacidade, personalização e auto-evolução. Esta pesquisa visa consolidar o estado da pesquisa em Agentes de SO, fornecendo insights para orientar tanto a investigação acadêmica quanto o desenvolvimento industrial. Um repositório GitHub de código aberto é mantido como um recurso dinâmico para promover mais inovação neste campo. Apresentamos uma versão de 9 páginas do nosso trabalho, aceita pela ACL 2025, para fornecer uma visão geral concisa do domínio.
Apresentamos o MeshLLM, uma estrutura inovadora que aproveita modelos de linguagem de grande escala (LLMs) para compreender e gerar malhas 3D serializadas em texto. Nossa abordagem aborda limitações fundamentais nos métodos existentes, incluindo a escala limitada de conjuntos de dados ao atender ao comprimento de tokens dos LLMs e a perda de informações estruturais 3D durante a serialização de malhas. Introduzimos uma estratégia de decomposição Primitive-Mesh, que divide malhas 3D em subunidades estruturalmente significativas. Isso possibilita a criação de um conjunto de dados em larga escala com mais de 1500k amostras, quase 50 vezes maior do que os métodos anteriores, o que se alinha melhor com os princípios da lei de escalonamento dos LLMs. Além disso, propomos a inferência de conectividade de faces a partir de vértices e estratégias de treinamento de montagem local de malhas, aprimorando significativamente a capacidade dos LLMs de capturar a topologia de malhas e estruturas espaciais. Experimentos mostram que o MeshLLM supera o estado da arte LLaMA-Mesh tanto na qualidade de geração de malhas quanto na compreensão de formas, destacando seu grande potencial no processamento de malhas 3D serializadas em texto.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado desempenho notável em idiomas de alta disponibilidade de recursos. No entanto, sua eficácia diminui significativamente em contextos de idiomas de baixa disponibilidade de recursos. Os métodos atuais de aprimoramento multilíngue frequentemente se limitam à modalidade textual ou dependem exclusivamente de tradução automática. Embora tais abordagens ajudem os modelos a adquirir capacidades linguísticas básicas e produzir "descrições superficiais", elas negligenciam a importância da informatividade multimodal e da fundamentação cultural, ambas cruciais para atender efetivamente os usuários de idiomas de baixa disponibilidade de recursos. Para preencher essa lacuna, neste estudo, identificamos dois objetivos significativos para um MLLM verdadeiramente eficaz em contextos de idiomas de baixa disponibilidade de recursos, a saber: 1) capacidade linguística e 2) fundamentação cultural, com ênfase especial na consciência cultural. Para alcançar esses objetivos duais, propomos uma estratégia de dupla fonte que orienta a coleta de dados específicos para cada meta, utilizando textos alternativos nativos da web para cultura e legendas geradas por MLLMs para linguística. Como uma implementação concreta, apresentamos MELLA, um conjunto de dados multimodal e multilíngue. Os resultados dos experimentos mostram que, após o ajuste fino em MELLA, há uma melhoria geral no desempenho para os oito idiomas em várias arquiteturas de MLLM, com os modelos produzindo "descrições detalhadas". Verificamos que os ganhos de desempenho são provenientes tanto do aprimoramento do conhecimento cultural quanto da melhoria da capacidade linguística. Nosso conjunto de dados pode ser encontrado em https://opendatalab.com/applyMultilingualCorpus.
Os modelos de linguagem visual (VLMs) demonstraram capacidades notáveis na integração de raciocínio linguístico e visual, mas permanecem fundamentalmente limitados na compreensão de interações espaço-temporais dinâmicas. Os seres humanos rastreiam e raciocinam sobre movimentos, rotações e mudanças de perspectiva de objetos com facilidade — habilidades essenciais para uma compreensão robusta do mundo real dinâmico, mas que são notavelmente ausentes nos VLMs atuais. Neste artigo, apresentamos o VLM4D, o primeiro benchmark especificamente projetado para avaliar as capacidades de raciocínio espaço-temporal dos VLMs. Nosso benchmark compreende diversos vídeos do mundo real e sintéticos, acompanhados de pares de perguntas e respostas cuidadosamente elaborados, enfatizando movimentos translacionais e rotacionais, consciência de perspectiva e continuidade de movimento. Por meio de avaliações abrangentes de VLMs de última geração, tanto de código aberto quanto proprietários, identificamos lacunas significativas de desempenho em comparação com baselines humanos, destacando deficiências fundamentais nos modelos existentes. Análises extensas revelam que os VLMs têm dificuldade particular em integrar múltiplos sinais visuais e manter coerência temporal. Exploramos ainda direções promissoras, como a reconstrução de campos de características 4D e o ajuste fino supervisionado espaço-temporal direcionado, demonstrando sua eficácia no aprimoramento da compreensão espaço-temporal. Nosso trabalho visa incentivar uma exploração mais profunda na melhoria da fundamentação espacial e temporal dos VLMs, abrindo caminho para uma inteligência visual mais capaz e confiável em ambientes dinâmicos.
O surgimento dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) impulsionou avanços significativos nas capacidades dos agentes de Interface Gráfica do Usuário (GUI). No entanto, as técnicas existentes de treinamento e inferência para agentes GUI ainda enfrentam dilemas em projetos de raciocínio, recompensas ineficazes e ruído visual. Para abordar esses problemas, introduzimos o UI-AGILE, um framework abrangente que aprimora os agentes GUI tanto na fase de treinamento quanto na de inferência. Para o treinamento, propomos uma série de melhorias no processo de Ajuste Fino Supervisionado (SFT): 1) uma função de Recompensa Contínua para incentivar a precisão no grounding; 2) uma recompensa de "Pensamento Simples" para equilibrar o planejamento com velocidade e precisão no grounding; e 3) uma estratégia de Reamostragem Baseada em Recorte para mitigar o problema de recompensa esparsa e melhorar o aprendizado em tarefas complexas. Para a inferência, apresentamos o Grounding Decomposto com Seleção, um método inovador que melhora drasticamente a precisão do grounding em telas de alta resolução ao dividir a imagem em partes menores e gerenciáveis. Experimentos mostram que o UI-AGILE alcança o desempenho de ponta em dois benchmarks, ScreenSpot-Pro e ScreenSpot-v2. Por exemplo, o uso combinado de nossos métodos propostos de aprimoramento de treinamento e inferência resulta em uma melhoria de 23% na precisão do grounding em relação à melhor baseline no ScreenSpot-Pro.
Abordagens recentes para reiluminação 3D têm mostrado promessa na integração de priors generativos de reiluminação 2D para alterar a aparência de uma representação 3D enquanto preserva a estrutura subjacente. No entanto, os priors generativos usados para reiluminação 2D que iluminam diretamente a partir de uma imagem de entrada não aproveitam as propriedades intrínsecas do sujeito que podem ser inferidas ou não conseguem considerar dados multivista em escala, resultando em reiluminação abaixo do ideal. Neste artigo, propomos o LightSwitch, uma nova estrutura de difusão de reiluminação de materiais ajustada que reilumina eficientemente um número arbitrário de imagens de entrada para uma condição de iluminação alvo, incorporando pistas de propriedades intrínsecas inferidas. Ao usar pistas multivista e de materiais juntamente com um esquema escalável de remoção de ruído, nosso método reilumina de forma consistente e eficiente dados multivista densos de objetos com composições materiais diversas. Mostramos que a qualidade da nossa previsão de reiluminação 2D supera os priors de reiluminação state-of-the-art anteriores que iluminam diretamente a partir de imagens. Além disso, demonstramos que o LightSwitch iguala ou supera métodos state-of-the-art de renderização inversa por difusão na reiluminação de objetos sintéticos e reais em apenas 2 minutos.