Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos Lumine, a primeira receita aberta para o desenvolvimento de agentes generalistas capazes de completar missões complexas de longa duração em tempo real em ambientes 3D de mundo aberto desafiadores. Lumine adota um paradigma de interação semelhante ao humano que unifica percepção, raciocínio e ação de ponta a ponta, impulsionado por um modelo de visão e linguagem. Ele processa pixels brutos a 5 Hz para produzir ações precisas de teclado e mouse a 30 Hz e invoca o raciocínio de forma adaptativa apenas quando necessário. Treinado em Genshin Impact, Lumine completa com sucesso toda a história principal de cinco horas de Mondstadt com eficiência comparável à humana e segue instruções em linguagem natural para realizar uma ampla gama de tarefas tanto na exploração de mundo aberto 3D quanto na manipulação de interfaces gráficas 2D, abrangendo coleta, combate, resolução de quebra-cabeças e interação com NPCs. Além de seu desempenho no domínio específico, Lumine demonstra uma forte generalização zero-shot entre jogos. Sem qualquer ajuste fino, ele realiza missões de 100 minutos em Wuthering Waves e o primeiro capítulo completo de cinco horas de Honkai: Star Rail. Esses resultados promissores destacam a eficácia de Lumine em mundos distintos e dinâmicas de interação, marcando um passo concreto em direção a agentes generalistas em ambientes abertos.
Os modelos de linguagem de difusão prometem geração paralela rápida, enquanto os modelos autoregressivos (AR) geralmente se destacam em qualidade devido à sua estrutura causal alinhada naturalmente com a modelagem de linguagem. Isso levanta uma questão fundamental: podemos alcançar uma sinergia com alta taxa de transferência, maior utilização da GPU e qualidade equivalente à AR? Os métodos existentes não conseguem equilibrar efetivamente esses dois aspectos, seja priorizando AR usando um modelo mais fraco para rascunho sequencial (decodificação especulativa), resultando em menor eficiência de rascunho, ou usando alguma forma de lógica de decodificação esquerda-para-direita (semelhante à AR) para difusão, o que ainda sofre de degradação de qualidade e perde seu potencial de paralelização. Apresentamos o TiDAR, uma arquitetura híbrida em nível de sequência que rascunha tokens (Pensamento) em Difusão e amostra saídas finais (Fala) de forma AutoRegressiva - tudo em uma única passagem direta usando máscaras de atenção estruturadas especialmente projetadas. Este projeto explora a densidade de computação gratuita da GPU, alcançando um forte equilíbrio entre capacidade de rascunho e verificação. Além disso, o TiDAR foi projetado para ser adequado para servidores (baixa sobrecarga) como um modelo independente. Avaliamos extensivamente o TiDAR contra modelos AR, decodificação especulativa e variantes de difusão em tarefas generativas e de verossimilhança nas escalas de 1,5B e 8B. Graças ao rascunho e amostragem paralelos, bem como ao suporte exato ao cache KV, o TiDAR supera a decodificação especulativa em taxa de transferência medida e ultrapassa modelos de difusão como Dream e Llada em eficiência e qualidade. Mais notavelmente, o TiDAR é a primeira arquitetura a fechar a lacuna de qualidade com os modelos AR enquanto fornece de 4,71x a 5,91x mais tokens por segundo.
A identificação de candidatos (hits) é um desafio central na descoberta precoce de fármacos, exigindo tradicionalmente recursos experimentais substanciais. Avanços recentes em inteligência artificial, particularmente em modelos de linguagem de grande escala (LLMs), têm permitido métodos de triagem virtual que reduzem custos e melhoram a eficiência. No entanto, a crescente complexidade dessas ferramentas tem limitado sua acessibilidade para pesquisadores de laboratório experimental. Os sistemas multiagente oferecem uma solução promissora ao combinar a interpretabilidade dos LLMs com a precisão de modelos e ferramentas especializadas. Neste trabalho, apresentamos o MADD, um sistema multiagente que constrói e executa pipelines personalizados de identificação de candidatos a partir de consultas em linguagem natural. O MADD emprega quatro agentes coordenados para lidar com subtarefas-chave na geração *de novo* de compostos e na triagem. Avaliamos o MADD em sete casos de descoberta de fármacos e demonstramos seu desempenho superior em comparação com soluções existentes baseadas em LLMs. Utilizando o MADD, pioneiramos a aplicação do design de fármacos com foco em IA para cinco alvos biológicos e disponibilizamos as moléculas candidatas identificadas. Por fim, introduzimos um novo *benchmark* de pares consulta-molécula e escores de *docking* para mais de três milhões de compostos, visando contribuir para o futuro agentivo do design de fármacos.
A geração de vídeos baseada em difusão pode criar vídeos realistas, no entanto, a condicionamento existente baseado em imagem e texto não oferece um controle preciso do movimento. Métodos anteriores para síntese condicionada por movimento normalmente exigem *fine-tuning* específico do modelo, o que é computacionalmente dispendioso e restritivo. Apresentamos o **Time-to-Move (TTM)**, uma estrutura *plug-and-play* e sem necessidade de treinamento para geração de vídeo controlada por movimento e aparência com modelos de difusão de imagem para vídeo (I2V). Nossa principal perceção é a utilização de animações de referência rudimentares obtidas através de manipulações de fácil utilização, como *cut-and-drag* ou reprojeção baseada em profundidade. Motivados pelo uso de pistas de layout grosseiras no SDEdit para edição de imagem, tratamos as animações rudimentares como pistas de movimento grosseiras e adaptamos o mecanismo para o domínio do vídeo. Preservamos a aparência com condicionamento por imagem e introduzimos a **desagregação de duplo relógio** (*dual-clock denoising*), uma estratégia dependente da região que impõe um forte alinhamento nas regiões especificadas para movimento, permitindo flexibilidade noutras áreas, equilibrando a fidelidade à intenção do utilizador com a dinâmica natural. Esta modificação leve do processo de amostragem não incorre em custos adicionais de treinamento ou tempo de execução e é compatível com qualquer modelo base (*backbone*). Experiências extensivas em *benchmarks* de movimento de objetos e de câmara mostram que o TTM iguala ou supera as linhas de base existentes baseadas em treinamento em realismo e controlo de movimento. Para além disso, o TTM introduz uma capacidade única: controlo preciso da aparência através de condicionamento a nível de píxel, superando os limites da solicitação apenas por texto. Visite a nossa página do projeto para ver exemplos de vídeo e código: https://time-to-move.github.io/.
Apresentamos o Motif-2-12.7B, um novo modelo de base de pesos abertos que expande a fronteira de eficiência dos grandes modelos de linguagem através da combinação de inovação arquitetônica com otimização em nível de sistema. Projetado para compreensão linguística escalável e generalização robusta de instruções sob orçamentos computacionais restritos, o Motif-2-12.7B é baseado no Motif-2.6B com a integração da Atenção Diferencial Agrupada (GDA), que melhora a eficiência representacional ao separar vias de atenção de controle de sinal e ruído. O modelo foi pré-treinado em 5,5 trilhões de tokens abrangendo diversos domínios linguísticos, matemáticos, científicos e de programação, utilizando um agendador de dados orientado por currículo que altera gradualmente a proporção de composição dos dados. O sistema de treinamento aproveita o otimizador MuonClip juntamente com *kernels* de alto desempenho personalizados, incluindo ativações fundidas PolyNorm e o algoritmo Parallel Muon, resultando em ganhos significativos de produtividade e eficiência de memória em ambientes distribuídos de grande escala. O pós-treinamento emprega um *pipeline* de ajuste fino supervisionado em três estágios que aprimora sucessivamente a adesão a instruções gerais, a compreensão composicional e a precisão linguística. O Motif-2-12.7B demonstra desempenho competitivo em diversos *benchmarks*, mostrando que o dimensionamento arquitetônico criterioso e o design de treinamento otimizado podem rivalizar com as capacidades de modelos muito maiores.
Os modelos Visão-Linguagem-Ação (VLA) têm demonstrado forte potencial para manipulação robótica de propósito geral, mas sua dependência de demonstrações especializadas limita sua capacidade de aprender com falhas e realizar autocorreções. A aprendizagem por reforço (RL) aborda essas limitações por meio de interações de autopromoção com o ambiente físico, mas sofre com alta complexidade amostral em robôs reais. Apresentamos a Otimização de Política Baseada em Modelo de Mundo (WMPO), uma estrutura principiada para RL VLA *on-policy* sem interação com o ambiente real. Em contraste com os modelos de mundo latentes amplamente utilizados, o WMPO concentra-se em previsões baseadas em pixels que alinham as trajetórias "imaginadas" com os recursos VLA pré-treinados com imagens em escala da web. Crucialmente, o WMPO permite que a política execute GRPO *on-policy*, que oferece desempenho superior aos métodos *off-policy* frequentemente utilizados. Experimentos extensivos em ambientes de simulação e robóticos reais demonstram que o WMPO (i) melhora substancialmente a eficiência amostral, (ii) alcança desempenho geral superior, (iii) exibe comportamentos emergentes como autocorreção e (iv) demonstra capacidades robustas de generalização e aprendizagem contínua.
Aumentar os Grandes Modelos de Linguagem (LLMs) com ferramentas externas permite que eles executem tarefas complexas e multi-etapas. No entanto, a aprendizagem de ferramentas é dificultada pelos pipelines de dados sintéticos estáticos, onde a geração de dados e o treinamento do modelo são executados como dois processos separados e não interativos. Essa abordagem não consegue focar adaptativamente nas fraquezas específicas de um modelo e permite que rótulos ruidosos persistam, degradando a eficiência do treinamento. Apresentamos o LoopTool, uma estrutura de evolução de dados totalmente automatizada e consciente do modelo que fecha esse ciclo, integrando estreitamente a síntese de dados e o treinamento do modelo. O LoopTool refina iterativamente tanto os dados quanto o modelo por meio de três módulos sinérgicos: (1) a Sondagem de Capacidade Gulosa (GCP) diagnostica as capacidades dominadas e as falhas do modelo; (2) a Verificação de Rótulos Guiada por Julgamento (JGLV) usa um modelo juiz de código aberto para encontrar e corrigir erros de anotação, purificando progressivamente o conjunto de dados; e (3) a Expansão de Dados Orientada a Erros (EDDE) gera novas amostras desafiadoras com base nas falhas identificadas. Este processo de ciclo fechado opera dentro de um ecossistema econômico e de código aberto, eliminando a dependência de APIs caras e de código fechado. Experimentos mostram que nosso modelo de 8B treinado com LoopTool supera significativamente seu gerador de dados de 32B e alcança novos resultados state-of-the-art nas benchmarks BFCL-v3 e ACEBench para a sua escala. Nosso trabalho demonstra que pipelines de dados de ciclo fechado e auto-refinamento podem melhorar drasticamente as capacidades de uso de ferramentas dos LLMs.
O desenvolvimento de interface de utilizador (UI) requer a tradução de maquetes de design para código funcional, um processo que permanece repetitivo e laborioso. Embora os Modelos de Visão e Linguagem (VLMs) recentes automatizem a geração de UI-para-Código, eles geram apenas layouts estáticos em HTML/CSS/JavaScript, carecendo de interatividade. Para resolver esta limitação, propomos o WebVIA, o primeiro framework agentivo para geração e validação interativa de UI-para-Código. O framework é composto por três componentes: 1) um agente de exploração para capturar capturas de ecrã de UI em múltiplos estados; 2) um modelo UI2Code que gera código interativo executável; 3) um módulo de validação que verifica a interatividade. Experiências demonstram que o WebVIA-Agent alcança uma exploração de UI mais estável e precisa do que agentes de propósito geral (por exemplo, Gemini-2.5-Pro). Adicionalmente, os nossos modelos WebVIA-UI2Code, fine-tuned, exibem melhorias substanciais na geração de código HTML/CSS/JavaScript executável e interativo, superando as suas contrapartes base em benchmarks tanto de UI2Code interativo como estático. O nosso código e modelos estão disponíveis em https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}.
Os modelos de linguagem grandes multimodais (MLLMs) demonstraram capacidades notáveis em tarefas de resposta visão-linguagem. Apesar dos seus pontos fortes, estes modelos frequentemente enfrentam desafios na realização de tarefas complexas de raciocínio, como a resolução de problemas matemáticos. Trabalhos anteriores concentraram-se no *fine-tuning* em conjuntos de dados matemáticos especializados. No entanto, estes conjuntos de dados são tipicamente destilados diretamente a partir de modelos professor, que capturam apenas padrões de raciocínio estáticos, deixando lacunas substanciais em comparação com os modelos estudante. Esta dependência de conjuntos de dados fixos derivados do professor não só restringe a capacidade do modelo de se adaptar a questões novas ou mais intrincadas que vão além dos limites dos dados de treino, como também carece da profundidade iterativa necessária para uma generalização robusta. Para superar estas limitações, propomos o \method, uma estrutura de Auto-Evolução Matemática para MLLMs. Em contraste com os paradigmas tradicionais de *fine-tuning* único, o \method refina iterativamente o modelo através de ciclos de inferência, reflexão e *feedback* baseado em recompensa. Especificamente, aproveitamos o *fine-tuning* iterativo, incorporando caminhos de raciocínio corretos derivados da inferência da fase anterior e integrando reflexões de um Modelo de Recompensa de Resultado (ORM) especializado. Para verificar a eficácia do \method, avaliamo-lo num conjunto de benchmarks desafiadores, demonstrando ganhos de desempenho significativos face aos modelos base. Notablemente, os nossos resultados experimentais no MathVL-test superam o principal modelo de raciocínio matemático multimodal de código aberto, o QVQ. O nosso código e modelos estão disponíveis em https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/.
Os agentes web têm dificuldade em se adaptar a novos sites devido à escassez de tarefas e demonstrações específicas do ambiente. Trabalhos recentes exploraram a geração de dados sintéticos para enfrentar este desafio, porém, eles sofrem com problemas de qualidade dos dados, onde as tarefas sintetizadas contêm alucinações que não podem ser executadas, e as trajetórias coletadas são ruidosas com ações redundantes ou desalinhadas. Neste artigo, propomos o SynthAgent, uma estrutura de supervisão totalmente sintética que visa melhorar a qualidade dos dados sintéticos através do refinamento dual de tarefas e trajetórias. Nossa abordagem começa sintetizando tarefas diversas por meio de exploração categorizada de elementos web, garantindo uma cobertura eficiente do ambiente alvo. Durante a coleta de trajetórias, refinamos as tarefas quando são detectados conflitos com observações reais, mitigando alucinações enquanto mantemos a consistência da tarefa. Após a coleta, realizamos o refinamento da trajetória com um contexto global para mitigar possíveis ruídos ou desalinhamentos. Finalmente, ajustamos agentes web de código aberto nos dados sintéticos refinados para adaptá-los ao ambiente alvo. Resultados experimentais demonstram que o SynthAgent supera os métodos existentes de dados sintéticos, validando a importância da supervisão sintética de alta qualidade. O código estará publicamente disponível em https://github.com/aiming-lab/SynthAgent.
Os modelos de difusão demonstraram um forte desempenho generativo ao utilizar métodos de orientação, como a orientação livre de classificador (CFG), que melhoram a qualidade da saída modificando a trajetória de amostragem. Estes métodos geralmente melhoram uma saída-alvo degradando intencionalmente outra, frequentemente a saída incondicional, utilizando funções de perturbação heurísticas, como a mistura de identidade ou condições desfocadas. No entanto, estas abordagens carecem de uma base fundamentada e dependem de distorções desenhadas manualmente. Neste trabalho, propomos a Orientação por Atenção de Sinkhorn Adversarial (ASAG), um método novo que reinterpreta as pontuações de atenção nos modelos de difusão através da lente do transporte ótimo e perturba intencionalmente o custo de transporte através do algoritmo de Sinkhorn. Em vez de corromper simplisticamente o mecanismo de atenção, a ASAG injeta um custo adversarial nas camadas de auto-atenção para reduzir a similaridade pixel a pixel entre consultas e chaves. Esta degradação deliberada enfraquece os alinhamentos de atenção enganadores e resulta numa qualidade de amostra condicional e incondicional melhorada. A ASAG mostra melhorias consistentes na difusão texto-imagem e aumenta a controlabilidade e fidelidade em aplicações subsequentes, como o IP-Adapter e o ControlNet. O método é leve, *plug-and-play*, e melhora a confiabilidade sem exigir qualquer re-treino do modelo.
Ferramentas de codificação agentivas, como OpenAI Codex, Claude Code e Cursor, estão transformando o panorama da engenharia de software. Estes sistemas alimentados por IA funcionam como colegas de equipa autónomos, capazes de planear e executar tarefas complexas de desenvolvimento. Os agentes tornaram-se participantes ativos na refatoração, um pilar do desenvolvimento de software sustentável que visa melhorar a qualidade interna do código sem alterar o comportamento observável. Apesar da sua adoção crescente, existe uma carência crítica de compreensão empírica sobre como a refatoração agentiva é utilizada na prática, como se compara à refatoração conduzida por humanos e que impacto tem na qualidade do código. Para colmatar esta lacuna empírica, apresentamos um estudo em larga escala de refatorações geradas por agentes de IA em projetos reais de código aberto em Java, analisando 15.451 instâncias de refatoração em 12.256 *pull requests* e 14.988 *commits* derivados do conjunto de dados AIDev. A nossa análise empírica mostra que a refatoração é uma atividade comum e intencional neste paradigma de desenvolvimento, com os agentes a explicitamente visarem a refatoração em 26,1% dos *commits*. A análise dos tipos de refatoração revela que os esforços agentivos são dominados por edições de baixo nível e orientadas à consistência, como Alterar Tipo de Variável (11,8%), Renomear Parâmetro (10,4%) e Renomear Variável (8,5%), refletindo uma preferência por melhorias localizadas em detrimento das alterações de *design* de alto nível comuns na refatoração humana. Adicionalmente, as motivações por trás da refatoração agentiva focam-se massivamente em preocupações de qualidade interna, com a mantenabilidade (52,5%) e a legibilidade (28,1%) a dominarem. Além disso, a avaliação quantitativa de métricas de qualidade de código mostra que a refatoração agentiva produz melhorias pequenas, mas estatisticamente significativas, nas métricas estruturais, particularmente para alterações de nível médio, reduzindo o tamanho e a complexidade das classes (por exemplo, mediana Δ de Linhas de Código por Classe = -15,25).
Os modelos de linguagem exibem capacidades notáveis de geração de linguagem natural, mas permanecem propensos a alucinações, gerando informações factualmente incorretas apesar de produzirem respostas sintaticamente coerentes. Este estudo introduz o Oráculo de Licenciamento, uma solução arquitetônica projetada para conter alucinações em modelos de linguagem através da imposição de restrições de veracidade por meio de validação formal contra grafos de conhecimento estruturados. Diferente de abordagens estatísticas que dependem de escalonamento de dados ou ajuste fino, o Oráculo de Licenciamento incorpora uma etapa de validação determinística ao processo gerativo do modelo, garantindo que apenas afirmações factualmente precisas sejam produzidas. Avaliamos a eficácia do Oráculo de Licenciamento por meio de experimentos comparando-o com vários métodos state-of-the-art, incluindo geração por modelo de linguagem baseline, ajuste fino para recall factual, ajuste fino para comportamento de abstenção e geração aumentada por recuperação (RAG). Nossos resultados demonstram que, embora RAG e ajuste fino melhorem o desempenho, eles não eliminam as alucinações. Em contraste, o Oráculo de Licenciamento alcançou precisão de abstenção perfeita (AP = 1,0) e zero respostas falsas (FAR-NE = 0,0), garantindo que apenas afirmações válidas fossem geradas com 89,1% de precisão em respostas factuais. Este trabalho mostra que inovações arquitetônicas, como o Oráculo de Licenciamento, oferecem uma solução necessária e suficiente para alucinações em domínios com representações de conhecimento estruturado, oferecendo garantias que métodos estatísticos não podem igualar. Embora o Oráculo de Licenciamento seja especificamente projetado para abordar alucinações em domínios baseados em fatos, sua estrutura estabelece as bases para geração com restrição de veracidade em futuros sistemas de IA, fornecendo um novo caminho para modelos confiáveis e epistemicamente fundamentados.