Artigos de pesquisa em IA selecionados diariamente com traduções
Os sistemas de modelos de linguagem grandes (LLMs) agentivos têm demonstrado capacidades robustas. No entanto, a sua dependência da linguagem como interface universal limita fundamentalmente a sua aplicabilidade a muitos problemas do mundo real, especialmente em domínios científicos onde modelos de base (foundation models) específicos de domínio foram desenvolvidos para lidar com tarefas especializadas que vão além da linguagem natural. Neste trabalho, apresentamos o Eywa, um framework agentivo heterogéneo concebido para estender os sistemas centrados em linguagem a uma classe mais ampla de modelos de base científicos. A ideia central do Eywa é aumentar modelos de base específicos de domínio com uma interface de raciocínio baseada em modelos de linguagem, permitindo que estes guiem a inferência sobre modalidades de dados não linguísticas. Este projeto permite que modelos de base preditivos, normalmente otimizados para dados e tarefas especializadas, participem em processos de raciocínio e tomada de decisão de alto nível dentro de sistemas agentivos. O Eywa pode funcionar como um substituto direto para um pipeline de agente único (EywaAgent) ou ser integrado em sistemas multiagente existentes, substituindo os agentes tradicionais por agentes especializados (EywaMAS). Investigamos ainda um framework de orquestração baseado em planeamento, no qual um planeador coordena dinamicamente agentes tradicionais e agentes Eywa para resolver tarefas complexas em diversas modalidades de dados heterogéneas (EywaOrchestra). Avaliamos o Eywa num conjunto diversificado de domínios científicos, abrangindo ciências físicas, da vida e sociais. Os resultados experimentais demonstram que o Eywa melhora o desempenho em tarefas que envolvem dados estruturados e específicos de domínio, ao mesmo tempo que reduz a dependência do raciocínio baseado em linguagem através de uma colaboração eficaz com modelos de base especializados.
Os modelos visuais de geração recentes fizeram progressos significativos em foto-realismo, tipografia, seguimento de instruções e edição interativa, mas ainda lutam com raciocínio espacial, estado persistente, consistência de longo prazo e compreensão causal. Argumentamos que a área deve evoluir além da síntese de aparência em direção à geração visual inteligente: elementos visuais plausíveis fundamentados em estrutura, dinâmica, conhecimento de domínio e relações causais. Para estruturar essa transição, introduzimos uma taxonomia de cinco níveis: Geração Atômica, Geração Condicional, Geração em Contexto, Geração Agente e Geração com Modelagem de Mundo, progredindo de renderizadores passivos para geradores interativos, agentes e conscientes do mundo. Analisamos os principais impulsionadores técnicos, incluindo correspondência de fluxo, modelos unificados de compreensão e geração, representações visuais aprimoradas, pós-treinamento, modelagem de recompensa, curadoria de dados, destilação de dados sintéticos e aceleração de amostragem. Mostramos ainda que as avaliações atuais frequentemente superestimam o progresso ao enfatizar a qualidade perceptual enquanto ignoram falhas estruturais, temporais e causais. Ao combinar revisão de benchmarks, testes de estresse em ambiente real e estudos de caso com restrições de especialistas, este roteiro oferece uma lente centrada em capacidades para compreender, avaliar e avançar a próxima geração de sistemas inteligentes de geração visual.
O RLVR e o OPD tornaram-se paradigmas padrão para o pós-treinamento. Apresentamos uma análise unificada destes dois paradigmas na consolidação de múltiplas capacidades de especialistas num único modelo, identificando a perda de capacidade de formas diferentes: o RLVR misto sofre com o custo da divergência inter-capacidades, enquanto o *pipeline* de primeiro treinar especialistas e depois realizar OPD, embora evite a divergência, falha em absorver totalmente as capacidades do professor devido a grandes lacunas nos padrões comportamentais entre professor e aluno. Propomos a Destilação de Políticas Co-Evolutivas (CoPD), que incentiva o treino paralelo de especialistas e introduz o OPD durante o treino contínuo de RLVR de cada especialista, em vez de após o treino completo do especialista, com os especialistas a servirem como professores mútuos (tornando o OPD bidirecional) para co-evoluir. Isto permite padrões comportamentais mais consistentes entre os especialistas, mantendo ao mesmo tempo conhecimento complementar suficiente ao longo do processo. Experiências validam que o CoPD alcança uma integração tudo-em-um de capacidades de raciocínio de texto, imagem e vídeo, superando significativamente *baselines* fortes como o RLVR misto e o MOPD, e até ultrapassando especialistas específicos de domínio. O padrão de treino paralelo de modelos oferecido pelo CoPD pode inspirar um novo paradigma de escalonamento de treino.
Os sistemas de controle de humanoides têm progredido significativamente nos últimos anos, mas a modelagem de comportamentos fluidos e ricos em interação entre um robô, seu ambiente circundante e objetos relevantes para a tarefa continua sendo um desafio fundamental. Esta dificuldade surge da necessidade de capturar conjuntamente contexto espacial, dinâmicas temporais, ações do robô e intenção da tarefa em escala, o que se ajusta mal à supervisão convencional. Propomos o ExoActor, uma estrutura inovadora que aproveita as capacidades de generalização de modelos de geração de vídeo em grande escala para abordar este problema. A ideia central do ExoActor é usar a geração de vídeo em terceira pessoa como uma interface unificada para modelar dinâmicas de interação. Dada uma instrução de tarefa e o contexto da cena, o ExoActor sintetiza processos de execução plausíveis que codificam implicitamente interações coordenadas entre robô, ambiente e objetos. Esse vídeo gerado é então transformado em comportamentos humanoides executáveis por meio de um pipeline que estima o movimento humano e o executa através de um controlador de movimento geral, produzindo uma sequência de comportamentos condicionada pela tarefa. Para validar a estrutura proposta, implementamo-la como um sistema de ponta a ponta e demonstramos sua generalização para novos cenários sem necessidade de coleta adicional de dados do mundo real. Além disso, concluímos discutindo as limitações da implementação atual e delineando direções promissoras para pesquisas futuras, ilustrando como o ExoActor fornece uma abordagem escalável para modelar comportamentos humanoides ricos em interação, potencialmente abrindo uma nova via para que modelos generativos avancem a inteligência de humanoides de propósito geral.
O ajuste fino de Grandes Modelos de Linguagem (LLMs) em GPUs de classe consumidor é altamente custo-efetivo, mas é limitado pela memória limitada da GPU e pelas interconexões PCIe lentas. O paralelismo de pipeline combinado com o descarregamento para a CPU mitiga esses gargalos de hardware, reduzindo a sobrecarga de comunicação. No entanto, os escalonadores de PP existentes sofrem de uma limitação inerente denominada problema de vinculação de pesos. A vinculação de estágios de modelo desiguais (por exemplo, a cabeça LM é grande) a GPUs limita a taxa de transferência do pipeline àquela da GPU com a carga mais pesada, levando a severas bolhas no pipeline. Neste artigo, propomos o RoundPipe, um novo escalonador de pipeline que quebra a restrição de vinculação de pesos em servidores com GPUs de classe consumidor. O RoundPipe trata as GPUs como um pool de trabalhadores de execução sem estado e despacha dinamicamente os estágios de computação entre os dispositivos de maneira round-robin, alcançando um pipeline com bolhas quase nulas. Para garantir a correção do treinamento e a eficiência do sistema, o RoundPipe integra um motor de escalonamento de transferência com consciência de prioridade, um protocolo de sincronização distribuída de eventos em granularidade fina e um algoritmo automatizado de particionamento de camadas. Avaliações em um servidor com 8x RTX 4090 demonstram que o RoundPipe alcança acelerações de 1,48x a 2,16x em relação às linhas de base state-of-the-art ao realizar o ajuste fino de modelos de 1,7B a 32B. Notavelmente, o RoundPipe permite o ajuste fino LoRA do modelo Qwen3-235B com comprimento de sequência de 31K em um único servidor. O RoundPipe está publicamente disponível como uma biblioteca Python de código aberto com documentação abrangente.
Espera-se que os agentes de LLM (Large Language Model) completem unidades de trabalho de ponta a ponta através de ferramentas de software, serviços empresariais e espaços de trabalho locais. No entanto, muitos benchmarks para agentes congelam um conjunto de tarefas selecionado no momento do lançamento e avaliam principalmente a resposta final, dificultando a avaliação dos agentes face à evolução da demanda de fluxos de trabalho ou a verificação da execução de uma tarefa. Apresentamos o Claw-Eval-Live, um benchmark dinâmico para agentes de fluxo de trabalho que separa uma camada de sinal atualizável, renovada entre lançamentos a partir de sinais públicos de demanda de fluxo de trabalho, de um snapshot de lançamento reproduzível e com carimbo de tempo. Cada lançamento é construído a partir de sinais públicos de demanda de fluxo de trabalho, utilizando as 500 principais competências (Top-500 skills) do ClawHub na versão atual, e é materializado como tarefas controladas com fixtures, serviços, espaços de trabalho e avaliadores fixos. Para a avaliação, o Claw-Eval-Live regista traços de execução, logs de auditoria, estado dos serviços e artefactos do espaço de trabalho pós-execução, utilizando verificações determinísticas quando a evidência é suficiente e recorrendo à avaliação estruturada por LLM apenas para dimensões semânticas. O lançamento contém 105 tarefas que abrangem serviços empresariais controlados e reparação de espaços de trabalho locais, e avalia 13 modelos de fronteira sob uma regra pública e partilhada de aprovação. Experiências revelam que a automação fiável de fluxos de trabalho está longe de estar resolvida: o modelo líder aprova apenas 66,7% das tarefas e nenhum modelo atinge os 70%. As falhas estruturam-se por família de tarefas e superfície de execução, com fluxos de trabalho de Recursos Humanos, gestão e sistemas multi-empresariais como estrangulamentos persistentes, enquanto a reparação de espaços de trabalho locais é comparativamente mais fácil, mas não saturada. A classificação no *leaderboard* por si só é insuficiente, pois modelos com taxas de aprovação semelhantes podem divergir na conclusão geral, e a discriminação a nível de tarefa concentra-se numa faixa intermédia. O Claw-Eval-Live sugere que a avaliação de agentes de fluxo de trabalho deve ser duplamente fundamentada: na demanda externa atualizada e na ação verificável do agente.
O token serve como a unidade fundamental de computação em modelos autorregressivos modernos, e o comprimento da geração influencia diretamente tanto o custo de inferência quanto o desempenho do raciocínio. Apesar de sua importância, as abordagens existentes carecem de modelagem de comprimento em granularidade fina, operando principalmente ao nível grosseiro de sequência. Introduzimos o Modelo de Valor de Comprimento (LenVM), uma estrutura em nível de token que modela o comprimento restante da geração. Ao formular a modelagem de comprimento como um problema de estimativa de valor e atribuir uma recompensa negativa constante a cada token gerado, o LenVM prevê um retorno descontado e limitado que serve como um proxy monotônico para o horizonte de geração restante. Esta formulação produz uma supervisão que é livre de anotações, densa, não tendenciosa e escalável. Experimentos em LLMs e VLMs demonstram que o LenVM fornece um sinal altamente eficaz no tempo de inferência. Na tarefa de correspondência exata de comprimento do LIFEBench, a aplicação do LenVM a um modelo de 7B melhora a pontuação de comprimento de 30,9 para 64,8, superando significativamente modelos proprietários de fronteira. Além disso, o LenVM permite o controle contínuo do compromisso entre desempenho e eficiência. No GSM8K com um orçamento de 200 tokens, o LenVM mantém 63% de precisão em comparação com 6% da linha de base de orçamento de tokens. Ele também prevê com precisão o comprimento total da geração a partir do limite do prompt. Finalmente, os valores em nível de token do LenVM oferecem uma visão interpretável da dinâmica de geração, revelando como tokens específicos deslocam o raciocínio para regimes mais curtos ou mais longos. Os resultados demonstram que o LenVM suporta uma ampla gama de aplicações e que o comprimento do token pode ser efetivamente modelado como um sinal de valor em nível de token, destacando o potencial do LenVM como uma estrutura geral para modelagem de comprimento e como um sinal de valor específico para comprimento que poderia apoiar futuros treinamentos de RL. O código está disponível em https://github.com/eric-ai-lab/Length-Value-Model.
Embora o Aprendizado por Reforço com Feedback Humano (RLHF) tenha se tornado um paradigma fundamental para a geração de imagens a partir de texto, sua aplicação na edição de imagens permanece amplamente inexplorada. Um gargalo principal é a falta de um modelo de recompensa geral e robusto para todas as tarefas de edição. Os modelos de recompensa de edição existentes geralmente atribuem pontuações gerais sem verificações detalhadas, ignorando diferentes requisitos das instruções e causando recompensas tendenciosas. Para resolver isso, argumentamos que a chave é passar de um simples pontuador para um verificador com raciocínio. Apresentamos o Edit-R1, uma estrutura que constrói um modelo de recompensa baseado em raciocínio (RRM) com um verificador de cadeia de pensamento (CoT) e, em seguida, o aproveita para a edição de imagens downstream. O Edit-RRM decompõe as instruções em princípios distintos, avalia a imagem editada em relação a cada princípio e agrega essas verificações em uma recompensa interpretável e de granularidade fina. Para construir tal RRM, primeiro aplicamos o ajuste fino supervisionado (SFT) como uma "partida a frio" para gerar trajetórias de recompensa CoT. Em seguida, introduzimos a Otimização de Preferência por Contraste de Grupo (GCPO), um algoritmo de aprendizado por reforço que aproveita dados de preferência humana pareados para reforçar nosso RRM pontual. Após a construção do RRM, usamos o GRPO para treinar modelos de edição com este modelo de recompensa não diferenciável, porém poderoso. Experimentos extensivos demonstram que nosso Edit-RRM supera VLMs poderosos, como o Seed-1.5-VL e o Seed-1.6-VL, como um modelo de recompensa específico para edição, e observamos uma clara tendência de escalabilidade, com o desempenho melhorando consistentemente de 3B para 7B de parâmetros. Além disso, o Edit-R1 proporciona ganhos para modelos de edição como o FLUX.1-kontext, destacando sua eficácia na melhoria da edição de imagens.
A infraestrutura de pesquisa existente é fundamentalmente centrada em documentos, fornecendo ligações de citação entre artigos, mas carecendo de representações explícitas da evolução metodológica. Em particular, não captura as relações estruturadas que explicam como e por que os métodos de pesquisa emergem, adaptam-se e constroem uns sobre os outros. Com a ascensão de agentes de pesquisa baseados em IA como uma nova classe de consumidores do conhecimento científico, esta limitação torna-se cada vez mais consequente, uma vez que tais agentes não podem reconstruir com fiabilidade as topologias da evolução metodológica a partir de texto não estruturado. Apresentamos o Intern-Atlas, um grafo de evolução metodológica que identifica automaticamente entidades ao nível do método, infere relações de linhagem entre metodologias e captura os estrangulamentos que impulsionam as transições entre inovações sucessivas. Construído a partir de 1.030.314 artigos abrangendo conferências de IA, revistas científicas e preprints do arXiv, o grafo resultante compreende 9.410.201 arestas com tipo semântico, cada uma fundamentada em evidências textuais diretas da fonte, formando uma rede causal consultável do desenvolvimento metodológico. Para operacionalizar esta estrutura, propomos ainda um algoritmo de busca em árvore temporal autoguiada para construir cadeias de evolução que traçam a progressão dos métodos ao longo do tempo. Avaliamos a qualidade do grafo resultante comparando-o com cadeias de evolução validadas por especialistas e observamos uma forte correspondência. Além disso, demonstramos que o Intern-Atlas possibilita aplicações subsequentes na avaliação de ideias e na geração automatizada de ideias. Posicionamos os grafos de evolução metodológica como uma camada de dados fundamental para a emergente descoberta científica automatizada.
Apresentamos o Nemotron 3 Nano Omni, o modelo mais recente da série multimodal Nemotron e o primeiro a suportar nativamente entradas de áudio, além de texto, imagens e vídeo. O Nemotron 3 Nano Omni oferece melhorias consistentes de precisão em relação ao seu predecessor, o Nemotron Nano V2 VL, em todas as modalidades, possibilitadas por avanços na arquitetura, dados de treinamento e metodologias. Em particular, o Nemotron 3 alcança resultados líderes em compreensão de documentos do mundo real, compreensão de áudio e vídeo longos e uso de agentes computacionais. Construído sobre a altamente eficiente base Nemotron 3 Nano 30B-A3B, o Nemotron 3 Nano Omni incorpora ainda técnicas inovadoras de redução de tokens multimodais para oferecer uma latência de inferência substancialmente menor e um throughput maior do que outros modelos de tamanho similar. Estamos disponibilizando checkpoints do modelo nos formatos BF16, FP8 e FP4, juntamente com porções dos dados de treinamento e base de código para facilitar novas pesquisas e desenvolvimentos.
Com o avanço dos modelos de linguagem grandes multimodais (MLLMs) e dos agentes de codificação, o desenvolvimento de websites evoluiu da programação manual para a síntese de código a nível de projeto baseada em agentes. Os benchmarks existentes baseiam-se em pressupostos idealizados, especialmente no que diz respeito a entradas bem estruturadas e ricas em informação e a ambientes de execução estáticos. Em contraste, o desenvolvimento no mundo real é limitado por um estrangulamento crítico: o desalinhamento semântico entre instruções ambíguas e de baixa qualidade de utilizadores não especializados e a compreensão do modelo, o que resulta num modo de falha que designamos por execução cega. Para colmatar esta lacuna, apresentamos o InteractWeb-Bench, o primeiro benchmark interativo multimodal para geração de websites sob condições de utilizador de baixo código não especializado. O InteractWeb-Bench introduz quatro tipos de agentes de utilizador e perturbações de instrução baseadas em personas para simular sistematicamente diversos comportamentos do utilizador, incluindo ambiguidade, redundância e contradição, com base em taxonomias de defeitos de engenharia de requisitos. Desenvolvemos um ambiente de execução interativo para agentes, apresentando um espaço de ação unificado que compreende Clarificar, Implementar, Verificar e Submeter, permitindo um refinamento iterativo da intenção, síntese de código e validação baseada em feedback visual. Experiências e análises extensivas revelam que os agentes de ponta baseados em MLLMs permanecem presos na execução cega, expondo limitações no reconhecimento de intenções e na interação adaptativa.
O trabalho produtivo realista de longo prazo está fortemente condicionado a ambientes computacionais específicos do utilizador, onde grande parte do contexto de trabalho é armazenado e organizado através de estruturas de diretórios e artefactos ricos em conteúdo. Para dimensionar a criação de dados sintéticos para tais cenários de produtividade, introduzimos Computadores Sintéticos em Escala, uma metodologia escalável para criar tais ambientes com hierarquias de pastas realistas e artefactos ricos em conteúdo (por exemplo, documentos, folhas de cálculo e apresentações). Condicionado a cada computador sintético, executamos simulações de longo prazo: um agente cria objetivos de produtividade específicos para o utilizador do computador e que exigem múltiplos entregáveis profissionais e cerca de um mês de trabalho humano; outro agente atua então como esse utilizador e continua a trabalhar no computador — por exemplo, navegando no sistema de ficheiros para contextualização, coordenando com colaboradores simulados e produzindo artefactos profissionais — até que estes objetivos sejam concluídos. Em experiências preliminares, criámos 1.000 computadores sintéticos e executámos simulações de longo prazo neles; cada execução requer mais de 8 horas de tempo de execução do agente e abrange em média mais de 2.000 interações. Estas simulações produzem sinais ricos de aprendizagem experiencial, cuja eficácia é validada por melhorias significativas no desempenho do agente em avaliações de produtividade tanto dentro como fora do domínio. Dado que as personas são abundantes em escala de milhares de milhões, esta metodologia pode, em princípio, ser dimensionada para milhões ou mesmo milhares de milhões de mundos de utilizadores sintéticos com capacidade computacional suficiente, permitindo uma cobertura mais ampla de diversas profissões, funções, contextos, ambientes e necessidades de produtividade. Argumentamos que a criação escalável de computadores sintéticos, juntamente com simulações em grande escala, é altamente promissora como um substrato fundamental para a autoaprimoração de agentes e para a aprendizagem por reforço agentiva em cenários de produtividade de longo prazo.
Demonstramos que a Distância de Fréchet (FD), há muito considerada impraticável como objetivo de treinamento, pode de fato ser otimizada eficazmente no espaço de representação. A nossa ideia é simples: desacoplar o tamanho da população para estimativa da FD (ex: 50k) do tamanho do lote para cálculo do gradiente (ex: 1024). Denominamos esta abordagem de FD-loss. A otimização da FD-loss revela várias descobertas surpreendentes. Primeiro, o pós-treino de um gerador base com FD-loss em diferentes espaços de representação melhora consistentemente a qualidade visual. No espaço de características Inception, um gerador de um passo alcança 0.72 FID no ImageNet 256x256. Segundo, a mesma FD-loss reconverte geradores de múltiplos passos em fortes geradores de um passo sem destilação por professor, treino adversarial ou objetivos por amostra. Terceiro, o FID pode classificar erroneamente a qualidade visual: representações modernas podem produzir amostras melhores apesar de pior FID Inception. Isto motiva o FDr^k, uma métrica de multi-representação. Esperamos que este trabalho incentive uma maior exploração de distâncias distribucionais em diversos espaços de representação, tanto como objetivos de treinamento como métricas de avaliação para modelos generativos.
A publicação científica comprime um processo de pesquisa ramificado e iterativo numa narrativa linear, descartando a maioria das descobertas realizadas ao longo do caminho. Esta compilação impõe dois custos estruturais: um Imposto Narrativo, onde experiências falhadas, hipóteses rejeitadas e o processo de exploração ramificado são descartados para caber numa narrativa linear; e um Imposto de Engenharia, onde o fosso entre a prosa suficiente para revisores e a especificação suficiente para agentes deixa detalhes críticos de implementação por escrever. Toleráveis para leitores humanos, estes custos tornam-se críticos quando agentes de IA devem compreender, reproduzir e expandir trabalhos publicados. Introduzimos o Artefacto de Pesquisa Nativo para Agentes (Agent-Native Research Artifact - ARA), um protocolo que substitui o artigo narrativo por um pacote de pesquisa executável por máquina, estruturado em torno de quatro camadas: lógica científica, código executável com especificações completas, um gráfico de exploração que preserva os fracassos que a compilação descarta, e evidências que fundamentam cada afirmação em resultados brutos. Três mecanismos suportam o ecossistema: um Gestor de Pesquisa em Tempo Real que captura decisões e becos sem saída durante o desenvolvimento normal; um Compilador ARA que traduz PDFs e repositórios legados em ARAs; e um sistema de revisão nativo para ARA que automatiza verificações objetivas para que os revisores humanos se possam focar na significância, novidade e mérito. No PaperBench e no RE-Bench, o ARA aumenta a precisão na resposta a perguntas de 72.4% para 93.7% e a taxa de sucesso de reprodução de 57.4% para 64.4%. Nas cinco tarefas de extensão de resposta aberta do RE-Bench, os rastos de falhas preservados no ARA aceleram o progresso, mas também podem limitar um agente capaz de sair da caixa de execuções anteriores, dependendo das capacidades do agente.
Os Grandes Modelos de Linguagem (LLMs) são conhecidos por adquirirem capacidades de raciocínio através de padrões de inferência partilhados nos dados de pré-treinamento, que são posteriormente eliciados por práticas de Cadeia de Pensamento (CoT). No entanto, a questão de saber se os padrões fundamentais de raciocínio, como a indução, dedução e abdução, podem ser dissociados de instâncias específicas de problemas permanece um desafio crítico para a controlabilidade dos modelos e para elucidar a controlabilidade do raciocínio. Neste artigo, apresentamos a primeira investigação sistemática deste problema através da lente dos conflitos de raciocínio: uma tensão explícita entre informação paramétrica e contextual induzida pela imposição de esquemas lógicos que se desviam daqueles esperados para uma tarefa-alvo. A nossa avaliação revela que os LLMs priorizam consistentemente a sensatez em detrimento da conformidade, favorecendo padrões de raciocínio apropriados à tarefa, apesar de instruções conflituosas. Notavelmente, a precisão na tarefa não é estritamente determinada pela sensatez, com os modelos a manterem frequentemente alto desempenho mesmo ao usar padrões conflituosos, sugerindo uma dependência de memória paramétrica internalizada que aumenta com o tamanho do modelo. Demonstramos ainda que os conflitos de raciocínio são internamente detetáveis, uma vez que as pontuações de confiança caem significativamente durante episódios de conflito. Experiências de *probing* confirmam que os tipos de raciocínio são codificados linearmente a partir das camadas intermédias até às tardias, indicando o potencial para controlabilidade ao nível da ativação. Aproveitando estas perceções, orientamos os modelos no sentido da conformidade, aumentando a adesão às instruções em até 29%. Globalmente, as nossas conclusões estabelecem que, embora o raciocínio dos LLMs esteja ancorado em instâncias concretas, intervenções mecanicistas ativas podem dissociar eficazmente os esquemas lógicos dos dados, oferecendo um caminho para uma melhor controlabilidade, fidedignidade e generalizabilidade.
Os métodos recentes para captura de movimento com esqueletos arbitrários a partir de vídeo monocular seguem um pipeline fatorizado, no qual uma rede Vídeo-para-Pose prevê as posições das articulações e uma etapa analítica de cinemática inversa (IK) recupera as rotações articulares. Embora eficaz, este projeto é inerentemente limitado, uma vez que as posições articulares não determinam totalmente as rotações e deixam graus de liberdade como a torção do eixo ósseo ambíguos, e a etapa não diferenciável de IK impede que o sistema se adapte a previsões ruidosas ou otimize para o objetivo final de animação. Neste trabalho, apresentamos o primeiro framework totalmente end-to-end no qual tanto Vídeo-para-Pose quanto Pose-para-Rotação são aprendíveis e otimizados conjuntamente. Observamos que a ambiguidade no mapeamento pose-para-rotação surge da informação faltante do sistema de coordenadas: as mesmas posições articulares podem corresponder a rotações diferentes sob diferentes poses de repouso e convenções de eixos locais. Para resolver isto, introduzimos um par de referência pose-rotação do ativo alvo, que, juntamente com a pose de repouso, não apenas ancora o mapeamento, mas também define o sistema de coordenadas de rotação subjacente. Esta formulação transforma a previsão de rotação num problema condicional bem restringido e permite uma aprendizagem eficaz. Adicionalmente, o nosso modelo prevê posições articulares diretamente do vídeo sem depender de intermediários de malha, melhorando tanto a robustez como a eficiência. Ambas as etapas partilham um módulo de Atenção Multi-Cabeça Guiada por Grafo Global-Local (GL-GMHA) consciente do esqueleto para raciocínio local a nível articular e coordenação global. Experiências no Truebones Zoo e Objaverse mostram que o nosso método reduz o erro de rotação de ~17 graus para ~10 graus, e para 6,54 graus em esqueletos não vistos, enquanto alcança uma inferência ~20x mais rápida do que os pipelines baseados em malha. Página do projeto: https://animotionlab.github.io/MoCapAnythingV2/
Os modernos modelos de difusão de vídeo destacam-se na síntese de aparência, mas ainda lutam com a consistência física: objetos desviam-se, colisões carecem de ricochete realista e as respostas dos materiais raramente correspondem às suas propriedades subjacentes. Apresentamos o PhyCo, uma estrutura que introduz controlo contínuo, interpretável e fisicamente fundamentado na geração de vídeo. A nossa abordagem integra três componentes-chave: (i) um conjunto de dados em larga escala com mais de 100 mil vídeos de simulação fotorrealista onde o atrito, a restituição, a deformação e a força são sistematicamente variados em diversos cenários; (ii) afinação supervisionada por física de um modelo de difusão pré-treinado usando um ControlNet condicionado em mapas de propriedades físicas alinhados por píxel; e (iii) otimização de recompensa guiada por VLM, onde um modelo visão-linguagem afinado avalia vídeos gerados com consultas físicas específicas e fornece *feedback* diferenciável. Esta combinação permite que um modelo generativo produza resultados fisicamente consistentes e controláveis através de variações em atributos físicos - sem qualquer simulador ou reconstrução geométrica durante a inferência. No *benchmark* Physics-IQ, o PhyCo melhora significativamente o realismo físico em comparação com linhas de base robustas, e estudos com humanos confirmam um controlo mais claro e fiel sobre os atributos físicos. Os nossos resultados demonstram um caminho escalável para modelos generativos de vídeo fisicamente consistentes e controláveis que generalizam para além de ambientes de treino sintéticos.
As preferências visuais humanas são inerentemente multidimensionais, abrangendo estética, fidelidade de detalhes e alinhamento semântico. No entanto, os conjuntos de dados existentes fornecem apenas anotações holísticas únicas, resultando em ruído severo de rótulos: imagens que se destacam em algumas dimensões, mas são deficientes em outras, são simplesmente marcadas como vencedoras ou perdedoras. Demonstramos teoricamente que comprimir preferências multidimensionais em rótulos binários gera sinais de gradiente conflitantes que desviam a Otimização de Preferência Direta por Difusão (DPO). Para resolver isso, propomos o Semi-DPO, uma abordagem semissupervisionada que trata pares consistentes como dados limpos rotulados e os conflitantes como dados não rotulados ruidosos. Nosso método começa treinando em um subconjunto limpo filtrado por consenso e, em seguida, usa esse modelo como um classificador implícito para gerar pseudo-rótulos para o conjunto ruidoso para refinamento iterativo. Os resultados experimentais demonstram que o Semi-DPO alcança desempenho de última geração e melhora significativamente o alinhamento com preferências humanas complexas, sem exigir anotação humana adicional ou modelos de recompensa explícitos durante o treinamento. Disponibilizaremos nosso código e modelos em: https://github.com/L-CodingSpace/semi-dpo
A inteligência incorporada requer ambientes de simulação de alta fidelidade para suportar a perceção e a tomada de decisão, no entanto, as plataformas existentes sofrem frequentemente de contaminação de dados e flexibilidade limitada. Para mitigar isto, propomos o World2Minecraft para converter cenas do mundo real em ambientes estruturados do Minecraft com base na previsão de ocupação semântica 3D. Nas cenas reconstruídas, podemos realizar facilmente tarefas subsequentes, como a Navegação Visão-Linguagem (VLN). No entanto, observamos que a qualidade da reconstrução depende fortemente de uma previsão precisa de ocupação, que continua limitada pela escassez de dados e pela fraca generalização nos modelos existentes. Introduzimos um pipeline de aquisição de dados automatizado, escalável e de baixo custo para criar conjuntos de dados de ocupação personalizados, e demonstramos a sua eficácia através do MinecraftOcc, um conjunto de dados de larga escala que inclui 100.165 imagens de 156 cenas interiores ricamente detalhadas. Experiências extensivas mostram que o nosso conjunto de dados fornece um complemento crucial aos conjuntos de dados existentes e representa um desafio significativo para os métodos atuais de estado da arte (SOTA). Estas descobertas contribuem para melhorar a previsão de ocupação e destacam o valor do World2Minecraft ao fornecer uma plataforma personalizável e editável para pesquisa personalizada em IA incorporada. Página do projeto: https://world2minecraft.github.io/.
Os agentes de uso computacional oferecem um caminho promissor para a automação geral de software porque podem interagir diretamente com interfaces gráficas de usuário arbitrárias, em vez de depender de integrações específicas de aplicativos e frágeis. Apesar dos avanços recentes no desempenho de benchmarks, agentes de uso computacional robustos permanecem caros e lentos na prática, uma vez que a maioria dos sistemas invoca grandes modelos multimodais em quase todas as etapas de interação. Argumentamos que essa alocação uniforme de capacidade computacional é fundamentalmente ineficiente para tarefas de GUI de longo horizonte. Tais trajetórias são altamente heterogêneas: muitas etapas são rotineiras e podem ser tratadas de forma confiável por políticas menores e mais baratas, enquanto os erros tendem a se concentrar em um número relativamente pequeno de momentos de alto risco. Em benchmarks de uso computacional, essas falhas repetidamente assumem duas formas: paradas de progresso, onde o agente entra em loop, repete ações ineficazes ou falha em progredir significativamente, e desvio semântico silencioso, onde o agente continua realizando ações localmente plausíveis após já ter se desviado do verdadeiro objetivo do usuário. Para abordar essa ineficiência, propomos uma cascata em nível de etapa, orientada a eventos, para agentes de uso computacional que executa uma pequena política por padrão e escala para um modelo mais forte apenas quando monitores leves e aprendizados detectam risco elevado. Nossa estrutura combina dois sinais complementares: um Monitor de Bloqueio que detecta progresso degradado a partir do histórico recente de raciocínio-ação e aciona a recuperação, e um Monitor de Marcos que identifica pontos de verificação semanticamente significativos onde a verificação esparsa é mais informativa para capturar desvios. Este projeto transforma a inferência constante de modelos de fronteira em uma alocação adaptativa e sob demanda de capacidade computacional ao longo de uma interação em evolução. A estrutura é modular e orientada à implantação: pode ser sobreposta a agentes de uso computacional existentes sem alterar a arquitetura do agente subjacente ou retreinar o modelo grande.
A poesia sempre foi uma forma de arte central para os falantes de árabe, servindo como um poderoso meio de expressão e identidade cultural. Embora os falantes modernos de árabe continuem a valorizar a poesia, a investigação existente sobre poesia árabe no contexto dos Grandes Modelos de Linguagem (LLMs) tem-se focado principalmente em tarefas de análise, como interpretação ou previsão de metadados, por exemplo, esquemas de rima e títulos. Em contraste, o nosso trabalho aborda o aspeto prático da criação de poesia em árabe, introduzindo capacidades de geração controlável para auxiliar os utilizadores a escrever poesia. Especificamente, apresentamos um conjunto de dados de grande escala, cuidadosamente curado e baseado em instruções, em Árabe Padrão Moderno (MSA) e vários dialetos árabes. Este conjunto de dados permite tarefas como escrever, rever e continuar poemas com base em critérios predefinidos, incluindo estilo e rima, bem como realizar análise poética. As nossas experiências mostram que o ajuste fino de LLMs neste conjunto de dados produz modelos que podem gerar poesia eficazmente alinhada com os requisitos do utilizador, com base tanto em métricas automatizadas como em avaliação humana com falantes nativos de árabe. Os dados e o código estão disponíveis em https://github.com/mbzuai-nlp/instructpoet-ar.
Embora a otimização de preferências seja crucial para melhorar os modelos generativos visuais, como escalonar efetivamente esse paradigma permanece amplamente inexplorado. Os conjuntos de dados de preferência de código aberto atuais contêm padrões de preferência conflitantes, onde os vencedores se destacam em algumas dimensões, mas têm desempenho inferior em outras. Otimizar de forma ingênua esses conjuntos de dados ruidosos falha em aprender preferências, dificultando um escalonamento eficaz. Para aumentar a robustez contra ruídos, propomos o Poly-DPO, que estende o objetivo do DPO com um termo polinomial adicional que ajusta dinamicamente a confiança do modelo com base nas características do conjunto de dados, permitindo um aprendizado eficaz em diversas distribuições de dados. Além dos padrões tendenciosos, os conjuntos de dados existentes sofrem com baixa resolução, diversidade limitada de *prompts* e distribuições desequilibradas. Para facilitar a otimização de preferências visuais em larga escala, abordando os gargalos de dados, construímos o ViPO, um conjunto de dados de preferência em larga escala com 1 milhão de pares de imagens a 1024px em cinco categorias e 300 mil pares de vídeos em 720p+ em três categorias. Modelos generativos de última geração e *prompts* diversos garantem sinais de preferência confiáveis com distribuições equilibradas. Notavelmente, ao aplicar o Poly-DPO ao nosso conjunto de dados de alta qualidade, a configuração ótima converge para o DPO padrão. Essa convergência valida a qualidade do conjunto de dados e a natureza adaptativa do Poly-DPO: a otimização sofisticada torna-se desnecessária com qualidade de dados suficiente, mas permanece valiosa para conjuntos de dados imperfeitos. Validamos nossa abordagem em modelos de geração visual. Em conjuntos de dados ruidosos como o Pick-a-Pic V2, o Poly-DPO alcança ganhos de 6,87 e 2,32 em relação ao Diffusion-DPO no GenEval para SD1.5 e SDXL, respectivamente. Para o ViPO, os modelos alcançam desempenho muito superior ao daqueles treinados em conjuntos de dados de preferência de código aberto existentes. Esses resultados confirmam que abordar tanto a adaptabilidade algorítmica quanto a qualidade dos dados é essencial para escalonar a otimização de preferências visuais.
Os modelos de base são rotineiramente ajustados (fine-tuned) para uso em domínios específicos, no entanto, as avaliações de segurança são normalmente conduzidas apenas nos modelos base, assumindo implicitamente que as propriedades de segurança persistem através da adaptação downstream. Testamos esta suposição analisando o comportamento de segurança de 100 modelos, incluindo ajustes amplamente utilizados nos domínios médico e jurídico, bem como adaptações controladas de modelos de base abertos juntamente com as suas bases originais. Através de benchmarks de segurança de propósito geral e específicos de domínio, descobrimos que o ajuste benigno induz mudanças grandes, heterogéneas e frequentemente contraditórias na segurança medida: os modelos frequentemente melhoram em alguns instrumentos enquanto degradam noutros, com discordância substancial entre as avaliações. Estes resultados mostram que o comportamento de segurança não é estável sob uma adaptação downstream comum, levantando questões críticas sobre as práticas de governação e implantação centradas em avaliações de modelos base. Sem uma reavaliação explícita dos modelos ajustados em contextos relevantes para a implantação, tais abordagens ficam aquém de gerir adequadamente o risco downstream, negligenciando fontes práticas de dano – falhas que são especialmente consequentes em contextos de alto risco e desafiam os atuais paradigmas de responsabilização.
Os modelos de linguagem de grande porte (LLMs) de contexto longo — por exemplo, Gemini-3.1-Pro e Qwen-3.5 — são amplamente utilizados para capacitar muitas aplicações do mundo real, como geração aumentada por recuperação, agentes autônomos e assistentes de IA. No entanto, a segurança continua sendo uma grande preocupação para sua implantação generalizada, com ameaças como injeção de prompt e corrupção de conhecimento. Para quantificar os riscos de segurança enfrentados pelos LLMs sob essas ameaças, a comunidade de pesquisa desenvolveu métodos de red teaming baseados em heurística e em otimização. Os métodos baseados em otimização geralmente produzem ataques mais fortes do que os ataques heurísticos e, portanto, fornecem uma avaliação mais rigorosa dos riscos de segurança dos LLMs. No entanto, eles são frequentemente intensivos em recursos, exigindo computação e memória de GPU significativas, especialmente para cenários de contexto longo. A natureza intensiva em recursos representa um grande obstáculo para a comunidade (especialmente pesquisadores acadêmicos) avaliar sistematicamente os riscos de segurança dos LLMs de contexto longo e a eficácia das estratégias de defesa em larga escala. Neste trabalho, propomos o FlashRT, o primeiro framework para melhorar a eficiência (em termos de computação e memória) para ataques de injeção de prompt e corrupção de conhecimento baseados em otimização sob LLMs de contexto longo. Por meio de avaliações extensivas, descobrimos que o FlashRT consistentemente oferece uma aceleração de 2x a 7x (por exemplo, reduzindo o tempo de execução de uma hora para menos de dez minutos) e uma redução de 2x a 4x no consumo de memória da GPU (por exemplo, reduzindo de 264,1 GB para 65,7 GB de memória GPU para um contexto de 32K tokens) em comparação com a baseline state-of-the-art nanoGCG. O FlashRT pode ser aplicado amplamente a métodos de otimização de caixa preta, como TAP e AutoDAN. Esperamos que o FlashRT possa servir como uma ferramenta de red teaming para permitir a avaliação sistemática da segurança de LLMs de contexto longo. O código está disponível em: https://github.com/Wang-Yanting/FlashRT