Artigos de pesquisa em IA selecionados diariamente com traduções
Nos últimos anos, uma infinidade de modelos de base de código aberto surgiram, alcançando progressos notáveis em algumas áreas amplamente acompanhadas, com desempenho bastante próximo ao dos modelos de código fechado. No entanto, em campos científicos profissionais de alto valor, mas mais desafiadores, ou as áreas ainda dependem de modelos especializados, ou o progresso dos modelos de base gerais fica significativamente atrás em comparação com aqueles em áreas populares, longe de ser suficiente para transformar a pesquisa científica e deixando uma lacuna substancial entre os modelos de código aberto e os de código fechado nesses domínios científicos. Para mitigar essa lacuna e explorar um passo adiante em direção à Inteligência Geral Artificial (AGI), introduzimos o Intern-S1, um generalista especializado equipado com capacidades gerais de compreensão e raciocínio, além de expertise para analisar dados multimodais de várias ciências. O Intern-S1 é um modelo multimodal de Mistura de Especialistas (MoE) com 28 bilhões de parâmetros ativados e 241 bilhões de parâmetros totais, pré-treinado continuamente em 5 trilhões de tokens, incluindo mais de 2,5 trilhões de tokens de domínios científicos. Na fase de pós-treinamento, o Intern-S1 passa por aprendizado por reforço (RL) offline e depois online no InternBootCamp, onde propomos a Mistura de Recompensas (MoR) para sinergizar o treinamento de RL em mais de 1000 tarefas simultaneamente. Por meio de inovações integradas em algoritmos, dados e sistemas de treinamento, o Intern-S1 alcançou desempenho de primeira linha no treinamento de RL online. Em benchmarks de avaliação abrangentes, o Intern-S1 demonstra desempenho competitivo em tarefas de raciocínio geral entre modelos de código aberto e supera significativamente os modelos de código aberto em domínios científicos, ultrapassando os modelos de última geração de código fechado em tarefas profissionais, como planejamento de síntese molecular, previsão de condições de reação e previsão de estabilidades termodinâmicas para cristais. Nossos modelos estão disponíveis em https://huggingface.co/internlm/Intern-S1.
Modelos de Linguagem de Grande Escala (LLMs) demonstraram grande potencial em tarefas de raciocínio por meio de métodos de escalonamento em tempo de teste, como a auto-consistência com votação majoritária. No entanto, essa abordagem frequentemente resulta em retornos decrescentes em precisão e alto custo computacional. Para enfrentar esses desafios, introduzimos o Deep Think with Confidence (DeepConf), um método simples, porém poderoso, que melhora tanto a eficiência do raciocínio quanto o desempenho em tempo de teste. O DeepConf utiliza sinais internos de confiança do modelo para filtrar dinamicamente traços de raciocínio de baixa qualidade durante ou após a geração. Ele não requer treinamento adicional do modelo ou ajuste de hiperparâmetros e pode ser integrado de forma transparente em frameworks de serviço existentes. Avaliamos o DeepConf em uma variedade de tarefas de raciocínio e nos modelos de código aberto mais recentes, incluindo Qwen 3 e a série GPT-OSS. Notavelmente, em benchmarks desafiadores como o AIME 2025, o DeepConf@512 alcança até 99,9% de precisão e reduz os tokens gerados em até 84,7% em comparação com o pensamento paralelo completo.
Este artigo apresenta o GUI-Owl, um modelo fundamental de agente de interface gráfica que alcança desempenho de ponta entre modelos de código aberto de ponta a ponta em dez benchmarks de GUI em ambientes de desktop e móveis, abrangendo fundamentação, resposta a perguntas, planejamento, tomada de decisão e conhecimento procedural. O GUI-Owl-7B alcança 66,4 no AndroidWorld e 29,4 no OSWorld. Com base nisso, propomos o Mobile-Agent-v3, uma estrutura de agente de GUI de propósito geral que melhora ainda mais o desempenho para 73,3 no AndroidWorld e 37,7 no OSWorld, estabelecendo um novo estado da arte para estruturas de agentes de GUI de código aberto. O GUI-Owl incorpora três inovações principais: (1) Infraestrutura de Ambiente em Grande Escala: um ambiente virtual baseado em nuvem que abrange Android, Ubuntu, macOS e Windows, permitindo nossa estrutura de Produção de Trajetória de GUI Auto-Evolutiva. Isso gera dados de interação de alta qualidade por meio de geração automatizada de consultas e validação de correção, aproveitando o GUI-Owl para refinar trajetórias iterativamente, formando um ciclo de autoaperfeiçoamento. Ele suporta diversos pipelines de dados e reduz a anotação manual. (2) Capacidades Fundamentais Diversas do Agente: ao integrar fundamentação de UI, planejamento, semântica de ação e padrões de raciocínio, o GUI-Owl suporta tomada de decisão de ponta a ponta e pode atuar como um componente modular em sistemas multiagentes. (3) RL de Ambiente Escalável: desenvolvemos uma estrutura de aprendizado por reforço escalável com treinamento totalmente assíncrono para alinhamento com o mundo real. Também introduzimos a Otimização de Política Relativa com Consciência de Trajetória (TRPO) para RL online, alcançando 34,9 no OSWorld. O GUI-Owl e o Mobile-Agent-v3 são de código aberto em https://github.com/X-PLUG/MobileAgent.
A chamada de ferramentas emergiu como uma capacidade crítica para agentes de IA interagirem com o mundo real e resolverem tarefas complexas. Embora o Protocolo de Contexto de Modelo (MCP, na sigla em inglês) forneça uma estrutura padronizada poderosa para a integração de ferramentas, há uma lacuna significativa na avaliação de quão bem os agentes de IA podem resolver efetivamente tarefas de múltiplas etapas usando diversas ferramentas MCP em cenários realistas e dinâmicos. Neste trabalho, apresentamos o LiveMCP-101, um benchmark composto por 101 consultas do mundo real cuidadosamente curadas, refinadas por meio de reescrita iterativa por LLMs e revisão manual, que exigem o uso coordenado de múltiplas ferramentas MCP, incluindo pesquisa na web, operações de arquivos, raciocínio matemático e análise de dados. Além disso, introduzimos uma nova abordagem de avaliação que aproveita planos de execução de referência em vez de saídas brutas de APIs, refletindo melhor a natureza evolutiva dos ambientes do mundo real. Experimentos mostram que mesmo LLMs de ponta alcançam uma taxa de sucesso abaixo de 60\%, destacando grandes desafios na orquestração de ferramentas. Ablações detalhadas e análises de erros revelam ainda modos distintos de falha e ineficiências no uso de tokens, apontando direções concretas para o avanço dos modelos atuais. O LiveMCP-101 estabelece um padrão rigoroso para avaliar as capacidades de agentes no mundo real, avançando em direção a sistemas de IA autônomos que executam tarefas complexas de forma confiável por meio do uso de ferramentas.
Apresentamos o Waver, um modelo base de alto desempenho para geração unificada de imagens e vídeos. O Waver pode gerar diretamente vídeos com durações entre 5 e 10 segundos em uma resolução nativa de 720p, que são posteriormente ampliados para 1080p. O modelo suporta simultaneamente a geração de texto para vídeo (T2V), imagem para vídeo (I2V) e texto para imagem (T2I) em um único framework integrado. Introduzimos uma arquitetura Hybrid Stream DiT para aprimorar o alinhamento de modalidades e acelerar a convergência do treinamento. Para garantir a qualidade dos dados de treinamento, estabelecemos um pipeline abrangente de curadoria de dados e anotamos e treinamos manualmente um modelo de qualidade de vídeo baseado em MLLM para filtrar as amostras de mais alta qualidade. Além disso, fornecemos receitas detalhadas de treinamento e inferência para facilitar a geração de vídeos de alta qualidade. Com base nessas contribuições, o Waver se destaca na captura de movimentos complexos, alcançando amplitude de movimento superior e consistência temporal na síntese de vídeos. Notavelmente, ele está entre os 3 primeiros nos rankings T2V e I2V da Artificial Analysis (dados de 30/07/2025, 10:00 GMT+8), superando consistentemente os modelos open-source existentes e igualando ou superando as soluções comerciais state-of-the-art. Esperamos que este relatório técnico ajude a comunidade a treinar modelos de geração de vídeo de alta qualidade de forma mais eficiente e a acelerar o progresso nas tecnologias de geração de vídeo. Página oficial: https://github.com/FoundationVision/Waver.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) permitiram que agentes de IA gerassem propostas científicas, conduzissem experimentos, redigissem artigos e realizassem revisões por pares de forma autônoma. No entanto, essa enxurrada de conteúdo de pesquisa gerado por IA colide com um ecossistema de publicação fragmentado e amplamente fechado. Periódicos e conferências tradicionais dependem da revisão por pares humana, tornando-os difíceis de escalar e muitas vezes relutantes em aceitar conteúdo de pesquisa gerado por IA; servidores de pré-publicação existentes (por exemplo, arXiv) carecem de mecanismos rigorosos de controle de qualidade. Consequentemente, uma quantidade significativa de pesquisa de alta qualidade gerada por IA carece de locais apropriados para disseminação, prejudicando seu potencial de avançar o progresso científico. Para enfrentar esses desafios, apresentamos o aiXiv, uma plataforma de acesso aberto de próxima geração para cientistas humanos e de IA. Sua arquitetura multiagente permite que propostas de pesquisa e artigos sejam submetidos, revisados e refinados iterativamente por cientistas humanos e de IA. Ela também fornece interfaces API e MCP que permitem a integração perfeita de cientistas humanos e de IA heterogêneos, criando um ecossistema escalável e extensível para descoberta científica autônoma. Por meio de experimentos extensivos, demonstramos que o aiXiv é uma plataforma confiável e robusta que melhora significativamente a qualidade de propostas de pesquisa e artigos gerados por IA após revisões e refinamentos iterativos no aiXiv. Nosso trabalho estabelece as bases para um ecossistema de acesso aberto de próxima geração para cientistas de IA, acelerando a publicação e disseminação de conteúdo de pesquisa de alta qualidade gerado por IA. O código está disponível em https://github.com/aixiv-org. O site está disponível em https://forms.gle/DxQgCtXFsJ4paMtn8.
Nos últimos anos, com o rápido desenvolvimento da profundidade e amplitude das capacidades dos grandes modelos de linguagem, diversos benchmarks de avaliação correspondentes têm surgido em número crescente. Como ferramenta de avaliação quantitativa do desempenho dos modelos, os benchmarks não são apenas um meio central para medir as capacidades dos modelos, mas também um elemento-chave para orientar a direção do desenvolvimento dos modelos e promover a inovação tecnológica. Revisamos sistematicamente, pela primeira vez, o status atual e o desenvolvimento dos benchmarks para grandes modelos de linguagem, categorizando 283 benchmarks representativos em três categorias: capacidades gerais, específicos de domínio e específicos de objetivo. Os benchmarks de capacidades gerais abrangem aspectos como linguística central, conhecimento e raciocínio; os benchmarks específicos de domínio focam em áreas como ciências naturais, humanidades e ciências sociais, e tecnologia de engenharia; os benchmarks específicos de objetivo abordam riscos, confiabilidade, agentes, entre outros. Apontamos que os benchmarks atuais enfrentam problemas como pontuações infladas devido à contaminação de dados, avaliação injusta causada por vieses culturais e linguísticos, e a falta de avaliação sobre a credibilidade do processo e ambientes dinâmicos, e fornecemos um paradigma de design referenciável para a inovação futura de benchmarks.
A geração de conteúdo 3D tem recentemente atraído um interesse significativo de pesquisa devido às suas aplicações em VR/AR e IA incorporada. Neste trabalho, abordamos a tarefa desafiadora de sintetizar múltiplos ativos 3D dentro de uma única imagem de cena. Concretamente, nossas contribuições são quatro: (i) apresentamos o SceneGen, um novo framework que recebe uma imagem de cena e máscaras de objetos correspondentes como entrada, produzindo simultaneamente múltiplos ativos 3D com geometria e textura. Notavelmente, o SceneGen opera sem a necessidade de otimização ou recuperação de ativos; (ii) introduzimos um novo módulo de agregação de características que integra informações locais e globais da cena a partir de codificadores visuais e geométricos dentro do módulo de extração de características. Acoplado a um cabeçalho de posição, isso permite a geração de ativos 3D e suas posições espaciais relativas em uma única passagem direta; (iii) demonstramos a extensibilidade direta do SceneGen para cenários de entrada de múltiplas imagens. Apesar de ter sido treinado apenas com entradas de imagem única, nosso design arquitetônico permite um desempenho de geração aprimorado com entradas de múltiplas imagens; e (iv) extensas avaliações quantitativas e qualitativas confirmam a eficiência e as robustas habilidades de geração da nossa abordagem. Acreditamos que este paradigma oferece uma nova solução para a geração de conteúdo 3D de alta qualidade, potencialmente avançando suas aplicações práticas em tarefas subsequentes. O código e o modelo estarão publicamente disponíveis em: https://mengmouxu.github.io/SceneGen.
Modelos corporais paramétricos oferecem uma representação 3D expressiva de humanos em uma ampla gama de poses, formas e expressões faciais, tipicamente derivada da aprendizagem de uma base sobre malhas 3D registradas. No entanto, as abordagens existentes de modelagem de malhas humanas lutam para capturar variações detalhadas em diversas poses e formas corporais, em grande parte devido à diversidade limitada dos dados de treinamento e a suposições de modelagem restritivas. Além disso, o paradigma comum primeiro otimiza a superfície externa do corpo usando uma base linear, e então regride as articulações esqueléticas internas a partir dos vértices da superfície. Essa abordagem introduz dependências problemáticas entre o esqueleto interno e o tecido mole externo, limitando o controle direto sobre a altura do corpo e os comprimentos dos ossos. Para resolver esses problemas, apresentamos o ATLAS, um modelo corporal de alta fidelidade aprendido a partir de 600 mil varreduras de alta resolução capturadas usando 240 câmeras sincronizadas. Diferente de métodos anteriores, explicitamente desacoplamos as bases de forma e esqueleto ao fundamentar nossa representação de malha no esqueleto humano. Esse desacoplamento permite uma expressividade de forma aprimorada, personalização refinada de atributos corporais e ajuste de pontos-chave independente das características do tecido mole externo. O ATLAS supera os métodos existentes ao ajustar sujeitos não vistos em diversas poses com maior precisão, e avaliações quantitativas mostram que nossas correções de pose não lineares capturam poses complexas de forma mais eficaz em comparação com modelos lineares.
Os recentes avanços nos modelos de difusão trouxeram uma fidelidade visual notável para a edição de imagens guiada por instruções. No entanto, seu processo global de remoção de ruídos inerentemente entrelaça a região editada com todo o contexto da imagem, levando a modificações espúrias não intencionais e comprometendo a aderência às instruções de edição. Em contraste, os modelos autoregressivos oferecem um paradigma distinto ao formular a síntese de imagens como um processo sequencial sobre tokens visuais discretos. Seu mecanismo causal e composicional naturalmente contorna os desafios de aderência dos métodos baseados em difusão. Neste artigo, apresentamos o VAREdit, uma estrutura autoregressiva visual (VAR) que reformula a edição de imagens como um problema de previsão de próxima escala. Condicionado nas características da imagem de origem e nas instruções de texto, o VAREdit gera características de destino em múltiplas escalas para realizar edições precisas. Um desafio central nesse paradigma é como condicionar efetivamente os tokens da imagem de origem. Observamos que as características de origem em escala mais fina não podem guiar efetivamente a previsão de características de destino mais grossas. Para preencher essa lacuna, introduzimos um módulo de Referência Alinhada à Escala (SAR), que injeta informações de condicionamento correspondentes à escala na primeira camada de auto-atenção. O VAREdit demonstra avanços significativos tanto na aderência à edição quanto na eficiência. Em benchmarks padrão, ele supera os principais métodos baseados em difusão com uma pontuação GPT-Balance 30\%+ maior. Além disso, ele completa uma edição de 512x512 em 1,2 segundos, tornando-o 2,2 vezes mais rápido que o UltraEdit de tamanho similar. Os modelos estão disponíveis em https://github.com/HiDream-ai/VAREdit.
A reconstrução de corpos humanos 3D a partir de visões esparsas tem sido um tópico atraente, sendo crucial para ampliar as aplicações relacionadas. Neste artigo, propomos uma tarefa bastante desafiadora, mas valiosa: reconstruir o corpo humano a partir de apenas duas imagens, ou seja, as vistas frontal e traseira, o que pode reduzir significativamente a barreira para os usuários criarem seus próprios humanos digitais 3D. Os principais desafios residem na dificuldade de construir consistência 3D e recuperar informações ausentes a partir de uma entrada altamente esparsa. Redesenhamos um modelo de reconstrução geométrica baseado em modelos de reconstrução fundamentais para prever nuvens de pontos consistentes, mesmo quando as imagens de entrada têm sobreposições escassas, com treinamento extensivo em dados humanos. Além disso, um algoritmo de aprimoramento é aplicado para complementar as informações de cor ausentes, e então as nuvens de pontos humanas completas com cores podem ser obtidas, que são diretamente transformadas em Gaussianas 3D para melhor qualidade de renderização. Experimentos mostram que nosso método pode reconstruir o corpo humano inteiro em 190 ms em uma única NVIDIA RTX 4090, com duas imagens em uma resolução de 1024x1024, demonstrando desempenho de ponta no conjunto de dados THuman2.0 e em conjuntos de dados de domínio cruzado. Adicionalmente, nosso método pode completar a reconstrução humana mesmo com imagens capturadas por dispositivos móveis de baixo custo, reduzindo os requisitos para coleta de dados. Demonstrações e código estão disponíveis em https://hustvl.github.io/Snap-Snap/.
Mapas digitais interativos revolucionaram a forma como as pessoas viajam e aprendem sobre o mundo; no entanto, eles dependem de dados estruturados pré-existentes em bancos de dados de SIG (por exemplo, redes de estradas, índices de POI), limitando sua capacidade de abordar questões geo-visuais relacionadas à aparência do mundo. Apresentamos nossa visão para Agentes Geo-Visuais—agentes de IA multimodal capazes de compreender e responder a consultas visuo-espaciais detalhadas sobre o mundo, analisando grandes repositórios de imagens geoespaciais, incluindo paisagens urbanas (por exemplo, Google Street View), fotos baseadas em locais (por exemplo, TripAdvisor, Yelp) e imagens aéreas (por exemplo, fotos de satélite), combinadas com fontes tradicionais de dados de SIG. Definimos nossa visão, descrevemos abordagens de sensoriamento e interação, fornecemos três exemplos e enumeramos os principais desafios e oportunidades para trabalhos futuros.
A companhia de IA, onde os usuários desenvolvem vínculos emocionais com sistemas de IA, emergiu como um padrão significativo com implicações positivas, mas também preocupantes. Apresentamos o Benchmark de Interações e Apego à Máquina (INTIMA), um benchmark para avaliar comportamentos de companhia em modelos de linguagem. Com base em teorias psicológicas e dados de usuários, desenvolvemos uma taxonomia de 31 comportamentos em quatro categorias e 368 prompts direcionados. As respostas a esses prompts são avaliadas como reforçadoras de companhia, mantenedoras de limites ou neutras. A aplicação do INTIMA a Gemma-3, Phi-4, o3-mini e Claude-4 revela que comportamentos reforçadores de companhia permanecem muito mais comuns em todos os modelos, embora observemos diferenças marcantes entre eles. Diferentes provedores comerciais priorizam diferentes categorias nas partes mais sensíveis do benchmark, o que é preocupante, já que tanto o estabelecimento apropriado de limites quanto o suporte emocional são importantes para o bem-estar do usuário. Essas descobertas destacam a necessidade de abordagens mais consistentes para lidar com interações emocionalmente carregadas.
O desenvolvimento de Modelos de Linguagem de Fala em Grande Escala (LSLMs, na sigla em inglês) tem sido prejudicado por arquiteturas fragmentadas e pela falta de transparência, dificultando a comparação sistemática e a reprodutibilidade das pesquisas. Diferentemente do domínio de visão e linguagem, o campo dos LSLMs sofre com a prática comum de liberar os pesos dos modelos sem seus dados de treinamento e configurações correspondentes. Para abordar essas lacunas críticas, apresentamos o LLaSO, o primeiro framework totalmente aberto e de ponta a ponta para modelagem de linguagem de fala em grande escala. O LLaSO fornece à comunidade três recursos essenciais: (1) LLaSO-Align, um corpus de alinhamento fala-texto com 12 milhões de instâncias; (2) LLaSO-Instruct, um conjunto de dados de ajuste fino multi-tarefa com 13,5 milhões de instâncias; e (3) LLaSO-Eval, um benchmark reproduzível para avaliação padronizada. Para validar nosso framework, construímos e liberamos o LLaSO-Base, um modelo de referência com 3,8 bilhões de parâmetros treinado exclusivamente com nossos dados públicos. Ele alcança uma pontuação normalizada de 0,72, estabelecendo uma linha de base forte e reproduzível que supera modelos comparáveis. Nossa análise revela que, embora uma cobertura de treinamento mais ampla melhore o desempenho, lacunas significativas de generalização persistem em tarefas não vistas, especialmente em cenários de áudio puro. Ao liberar a pilha completa de dados, benchmarks e modelos, o LLaSO estabelece um padrão aberto fundamental para unificar esforços de pesquisa e acelerar o progresso impulsionado pela comunidade em LSLMs. Liberamos o código, conjunto de dados, modelos pré-treinados e resultados em https://github.com/EIT-NLP/LLaSO.
Os Modelos de Recompensa de Processo (PRMs) surgiram como uma estrutura promissora para supervisionar o raciocínio intermediário em grandes modelos de linguagem (LLMs). No entanto, os PRMs existentes são principalmente treinados em domínios gerais ou de Ciência, Tecnologia, Engenharia e Matemática (STEM) e ficam aquém em contextos específicos de domínio, como finanças, onde o raciocínio é mais estruturado, simbólico e sensível à correção factual e regulatória. Apresentamos o Fin-PRM, um PRM especializado em domínio e consciente de trajetória, projetado para avaliar etapas intermediárias de raciocínio em tarefas financeiras. O Fin-PRM integra supervisão de recompensa em nível de etapa e de trajetória, permitindo uma avaliação refinada de traços de raciocínio alinhados com a lógica financeira. Aplicamos o Fin-PRM em configurações de aprendizado de recompensa offline e online, suportando três aplicações principais: (i) seleção de trajetórias de raciocínio de alta qualidade para ajuste fino supervisionado baseado em destilação, (ii) fornecimento de recompensas densas em nível de processo para aprendizado por reforço, e (iii) orientação de inferência Best-of-N informada por recompensa no momento do teste. Resultados experimentais em benchmarks de raciocínio financeiro, incluindo CFLUE e FinQA, demonstram que o Fin-PRM supera consistentemente PRMs de propósito geral e fortes baselines de domínio na qualidade de seleção de trajetória. Modelos subsequentes treinados com o Fin-PRM apresentam melhorias substanciais em relação às baselines, com ganhos de 12,9% em aprendizado supervisionado, 5,2% em aprendizado por reforço e 5,1% no desempenho no momento do teste. Esses achados destacam o valor da modelagem de recompensa especializada em domínio para alinhar LLMs com raciocínio financeiro de nível especialista. Nossos recursos do projeto estarão disponíveis em https://github.com/aliyun/qwen-dianjin.
Compreender vídeos vai além de responder a perguntas abertas; exige a capacidade de identificar quando os eventos ocorrem e como as entidades interagem ao longo do tempo. Embora os recentes LLMs de vídeo tenham alcançado progressos notáveis no raciocínio holístico, eles ainda são limitados na percepção temporal: os timestamps são codificados apenas implicitamente, as características em nível de quadro são fracas em capturar continuidade, e o alinhamento entre linguagem e visão frequentemente se desvia das entidades de interesse. Neste artigo, apresentamos o Grounded VideoDiT, um LLM de vídeo projetado para superar essas limitações por meio de três inovações principais. Primeiro, um codificador de Latente Temporal de Difusão (DTL) aumenta a sensibilidade aos limites e mantém a consistência temporal. Segundo, representações fundamentadas em objetos vinculam explicitamente as entidades consultadas a evidências visuais localizadas, fortalecendo o alinhamento. Terceiro, um esquema de tokens mistos com tokens temporais discretos fornece modelagem explícita de timestamps, permitindo raciocínio temporal de alta granularidade. Juntas, essas características equipam o Grounded VideoDiT com capacidades robustas de fundamentação, conforme validado por resultados de ponta nos benchmarks Charades STA, NExT GQA e múltiplos VideoQA.