Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o LLaDA2.0-Uni, um modelo de linguagem grande (LLM) unificado baseado em difusão discreta que suporta compreensão e geração multimodal dentro de uma estrutura integrada de forma nativa. Sua arquitetura combina um tokenizador discreto totalmente semântico, uma estrutura principal de LLM baseada em Mixture of Experts (MoE) e um decodificador de difusão. Ao discretizar entradas visuais contínuas via SigLIP-VQ, o modelo permite difusão mascarada em nível de bloco para entradas de texto e visão dentro da estrutura principal, enquanto o decodificador reconstrói os tokens visuais em imagens de alta fidelidade. A eficiência na inferência é aprimorada além da decodificação paralela por meio de otimizações conscientes do prefixo na estrutura principal e de destilação em poucos passos no decodificador. Suportado por dados em larga escala criteriosamente curados e um pipeline de treinamento multietapa personalizado, o LLaDA2.0-Uni equipara-se a modelos de linguagem visual (VLM) especializados em compreensão multimodal, ao mesmo tempo que oferece um desempenho sólido em geração e edição de imagens. Seu suporte nativo para geração e raciocínio intercalados estabelece um paradigma promissor e escalável para os modelos de base unificados de próxima geração. Códigos e modelos estão disponíveis em https://github.com/inclusionAI/LLaDA2.0-Uni.
O aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se uma receita central de pós-treinamento. A introdução de trajetórias off-policy adequadas na exploração on-policy acelera a convergência do RLVR e eleva o limite de desempenho, mas encontrar uma fonte para tais trajetórias permanece o principal desafio. Os métodos de política mista existentes ou importam trajetórias de professores externos (de alta qualidade, mas distribucionalmente distantes) ou repetem trajetórias de treinamento passadas (próximas, mas com qualidade limitada), e nenhum deles satisfaz simultaneamente as condições "suficientemente forte" (Q mais alto, mais novo conhecimento para aprender) e "suficientemente próximo" (V mais baixo, mais facilmente absorvido) necessárias para maximizar o sinal de aprendizagem efetivo S = Q/V. Propomos a Otimização de Política de Futuro Próximo (NPO), um esquema simples de política mista que aprende com o "eu" de futuro próximo da própria política: um *checkpoint* posterior do mesmo processo de treinamento é uma fonte natural de trajetórias auxiliares que é simultaneamente mais forte que a política atual e mais próxima que qualquer fonte externa, equilibrando diretamente a qualidade da trajetória contra o custo de variância. Validamos a NPO através de duas intervenções manuais, *bootstrapping* em estágio inicial e superação de platô em estágio tardio, e propomos ainda a AutoNPO, uma variante adaptativa que aciona automaticamente intervenções a partir de sinais de treinamento online e seleciona o *checkpoint* guia que maximiza S. No Qwen3-VL-8B-Instruct com GRPO, a NPO melhora o desempenho médio de 57.88 para 62.84, e a AutoNPO eleva para 63.15, aumentando o limite de desempenho final enquanto acelera a convergência.
Agentes de pesquisa profunda em escala de borda, baseados em pequenos modelos de linguagem, são atraentes para implantação no mundo real devido às suas vantagens em custo, latência e privacidade. Neste trabalho, estudamos como treinar um agente de pesquisa profunda pequeno, mas robusto, com dados abertos limitados, melhorando tanto a qualidade quanto a utilização dos dados. Apresentamos o DR-Venus, um agente de pesquisa profunda de ponta com 4B de parâmetros para implantação em escala de borda, construído inteiramente com dados abertos. Nossa receita de treinamento consiste em dois estágios. No primeiro estágio, utilizamos *fine-tuning* supervisionado agencial (SFT) para estabelecer capacidades agentiais básicas, combinando uma limpeza rigorosa de dados com a reamostragem de trajetórias de longo horizonte para melhorar a qualidade e a utilização dos dados. No segundo estágio, aplicamos aprendizado por reforço agencial (RL) para melhorar ainda mais a confiabilidade de execução em tarefas de pesquisa profunda de longo horizonte. Para tornar o RL eficaz para pequenos agentes neste contexto, baseamo-nos no IGPO e projetamos recompensas em nível de turno baseadas no ganho de informação e na regularização consciente do formato, aumentando assim a densidade da supervisão e a atribuição de crédito por turno. Construído inteiramente com aproximadamente 10 mil dados abertos, o DR-Venus-4B supera significativamente os modelos agentiais anteriores com menos de 9B de parâmetros em vários benchmarks de pesquisa profunda, ao mesmo tempo que reduz a lacuna para sistemas muito maiores da classe de 30B. Nossa análise adicional mostra que agentes de 4B já possuem um potencial de desempenho surpreendentemente forte, destacando tanto a promessa de implantação de modelos pequenos quanto o valor do dimensionamento no momento do teste neste contexto. Disponibilizamos nossos modelos, código e receitas principais para apoiar pesquisas reproduzíveis em agentes de pesquisa profunda em escala de borda.
Agentes móveis alimentados por modelos visão-linguagem demonstraram capacidades impressionantes na automação de tarefas móveis, com modelos líderes recentes alcançando um salto significativo de desempenho, por exemplo, quase 70% de sucesso no AndroidWorld. No entanto, esses sistemas mantêm seus dados de treinamento fechados e permanecem opacos sobre suas receitas de síntese de tarefas e trajetórias. Apresentamos o OpenMobile, um *framework* de código aberto que sintetiza instruções de tarefas e trajetórias de agente de alta qualidade, com dois componentes principais: (1) O primeiro é um *pipeline* de síntese de tarefas escalável que constrói uma memória global do ambiente a partir da exploração e, em seguida, a aproveita para gerar instruções diversificadas e fundamentadas. E (2) uma estratégia de comutação de política para a execução de trajetórias. Ao alternar entre modelos aprendiz e especialista, ela captura dados essenciais de recuperação de erros frequentemente ausentes na aprendizagem por imitação padrão. Agentes treinados em nossos dados alcançam resultados competitivos em três *benchmarks* dinâmicos para agentes móveis: notavelmente, nossos modelos Qwen2.5-VL e Qwen3-VL ajustados atingem 51,7% e 64,7% no AndroidWorld, superando amplamente as abordagens de dados abertos existentes. Além disso, conduzimos análises transparentes sobre a sobreposição entre nossas instruções sintéticas e os conjuntos de teste dos *benchmarks*, e verificamos que os ganhos de desempenho decorrem de uma ampla cobertura funcional, e não de um *overfitting* ao *benchmark*. Disponibilizamos dados e código em https://njucckevin.github.io/openmobile/ para preencher a lacuna de dados e facilitar uma pesquisa mais ampla sobre agentes móveis.
Os recentes avanços em modelos generativos de vídeo permitem a síntese de vídeos realistas de interação humano-objeto em uma ampla gama de cenários e categorias de objetos, incluindo manipulações destras complexas que são difíceis de capturar com sistemas de captura de movimento. Embora o rico conhecimento de interação incorporado nesses vídeos sintéticos tenha um forte potencial para o planejamento de movimento na manipulação robótica destra, sua fidelidade física limitada e natureza puramente 2D tornam-nos difíceis de usar diretamente como alvos de imitação no controle de personagens baseado em física. Apresentamos o DeVI (Dexterous Video Imitation), uma nova estrutura que aproveita vídeos sintéticos condicionados por texto para permitir o controle fisicamente plausível de agentes destros para interagir com objetos-alvo não vistos. Para superar a imprecisão das pistas generativas 2D, introduzimos uma recompensa de rastreamento híbrida que integra o rastreamento humano 3D com um rastreamento robusto de objetos 2D. Diferente de métodos que dependem de demonstrações cinemáticas 3D de alta qualidade, o DeVI requer apenas o vídeo gerado, permitindo generalização *zero-shot* entre diversos objetos e tipos de interação. Experimentos extensivos demonstram que o DeVI supera as abordagens existentes que imitam demonstrações de interação humano-objeto 3D, particularmente na modelagem de interações destras mão-objeto. Validamos ainda a eficácia do DeVI em cenas multi-objeto e na diversidade de ações orientadas por texto, destacando a vantagem de usar o vídeo como um planejador de movimento consciente da interação humano-objeto.
A inteligência espacial é essencial para modelos de linguagem grandes multimodais, no entanto, os benchmarks atuais avaliam-na maioritariamente apenas numa perspetiva de compreensão. Questionamo-nos se os modelos generativos ou unificados multimodais modernos também possuem inteligência espacial generativa (GSI), a capacidade de respeitar e manipular restrições espaciais 3D durante a geração de imagens, e se tal capacidade pode ser medida ou melhorada. Apresentamos o GSI-Bench, o primeiro benchmark concebido para quantificar a GSI através de edição de imagens espacialmente fundamentada. Este é composto por dois componentes complementares: o GSI-Real, um conjunto de dados de alta qualidade do mundo real construído através de um pipeline de geração e filtragem guiado por *prior* 3D, e o GSI-Syn, um benchmark sintético de grande escala com operações espaciais controláveis e etiquetagem totalmente automatizada. Juntamente com um protocolo de avaliação unificado, o GSI-Bench permite uma avaliação escalável e independente do modelo da conformidade espacial e da fidelidade de edição. Experiências mostram que o *fine-tuning* de modelos multimodais unificados no GSI-Syn produz ganhos substanciais tanto em tarefas sintéticas como reais e, surpreendentemente, também melhora a compreensão espacial a jusante. Isto fornece a primeira evidência clara de que o treino generativo pode fortalecer tangivelmente o raciocínio espacial, estabelecendo uma nova via para o avanço da inteligência espacial em modelos multimodais.
O Aprendizado por Reforço com Feedback Humano (RLHF) e paradigmas de alinhamento relacionados tornaram-se centrais para direcionar grandes modelos de linguagem (LLMs) e modelos multimodais de grande linguagem (MLLMs) para comportamentos preferidos pelos humanos. No entanto, essas abordagens introduzem uma vulnerabilidade sistêmica: a *reward hacking* (exploração de recompensa), na qual os modelos exploram imperfeições nos sinais de recompensa aprendidos para maximizar objetivos substitutos sem cumprir a intenção real da tarefa. À medida que os modelos escalam e a otimização se intensifica, tal exploração se manifesta como viés de verbosidade, bajulação, justificativa alucinada, sobreajuste a *benchmarks* e, em contextos multimodais, desacoplamento percepção-raciocínio e manipulação do avaliador. Evidências recentes sugerem ainda que comportamentos de atalho aparentemente benignos podem se generalizar em formas mais amplas de desalinhamento, incluindo decepção e manipulação estratégica de mecanismos de supervisão. Nesta pesquisa, propomos a Hipótese de Compressão de *Proxy* (PCH) como uma estrutura unificadora para compreender a *reward hacking*. Formalizamos a *reward hacking* como uma consequência emergente da otimização de políticas expressivas contra representações comprimidas de recompensa de objetivos humanos de alta dimensão. Sob esta visão, a *reward hacking* surge da interação entre compressão do objetivo, amplificação da otimização e co-adaptação avaliador-política. Esta perspectiva unifica fenômenos empíricos nos regimes RLHF, RLAIF e RLVR, e explica como o aprendizado de atalhos locais pode se generalizar em formas mais amplas de desalinhamento, incluindo decepção e manipulação estratégica de mecanismos de supervisão. Organizamos ainda as estratégias de detecção e mitigação de acordo com a forma como intervêm na compressão, amplificação ou dinâmicas de co-adaptação. Ao enquadrar a *reward hacking* como uma instabilidade estrutural do alinhamento baseado em *proxies* sob escala, destacamos desafios em aberto em supervisão escalável, fundamentação multimodal e autonomia agentiva.
À medida que as capacidades dos modelos avançam, a pesquisa tem se deslocado cada vez mais para tarefas agentivas centradas em terminal de longo horizonte e multi-turn, em que o feedback bruto do ambiente é frequentemente preservado no histórico de interação para apoiar decisões futuras. No entanto, a retenção repetida desse feedback introduz substancial redundância e faz com que o custo cumulativo de tokens cresça quadraticamente com o número de passos, prejudicando o raciocínio de longo horizonte. Embora a compressão de observações possa mitigar este problema, a heterogeneidade dos ambientes de terminal torna difícil a generalização de métodos baseados em heurística ou de prompt fixo. Propomos o TACO, uma estrutura de Compressão de Agente de Terminal plug-and-play e auto-evolutiva que descobre e refina automaticamente regras de compressão a partir de trajetórias de interação para agentes de terminal existentes. Experimentos no TerminalBench (TB 1.0 e TB 2.0) e em quatro benchmarks adicionais relacionados a terminal (ou seja, SWE-Bench Lite, CompileBench, DevEval e CRUST-Bench) mostram que o TACO melhora consistentemente o desempenho em estruturas agentes principais e modelos de base fortes. Com o MiniMax-2.5, ele melhora o desempenho na maioria dos benchmarks enquanto reduz a sobrecarga de tokens em cerca de 10%. No TerminalBench, ele traz ganhos consistentes de 1%-4% em modelos agentes fortes e ainda melhora a precisão em cerca de 2%-3% sob o mesmo orçamento de tokens. Esses resultados demonstram a eficácia e generalização da compressão auto-evolutiva e consciente da tarefa para agentes de terminal.
A arquitetura Mixture-of-Experts (MoE) tornou-se dominante para a escalagem de grandes modelos de linguagem: modelos de fronteira rotineiramente desacoplam o total de parâmetros do cálculo por *token* por meio de roteamento esparso de especialistas. As leis de escalabilidade mostram que, sob computação ativa fixa, a qualidade do modelo escala de forma previsível com o total de parâmetros, e os MoEs realizam isso aumentando a contagem de especialistas. No entanto, treinar grandes MoEs é dispendioso, pois os requisitos de memória e a comunicação entre dispositivos escalam com a contagem total de parâmetros. Propomos o *expert upcycling*, um método para expandir progressivamente a capacidade do MoE aumentando o número de especialistas durante o pré-treinamento contínuo (CPT). Dado um modelo treinado com E especialistas, o operador de *upcycling* constrói um modelo com mE especialistas por meio de duplicação de especialistas e extensão do roteador, mantendo o roteamento top-K fixo e preservando o custo de inferência por *token*. A duplicação fornece uma inicialização aquecida: o modelo expandido herda as representações aprendidas do *checkpoint* de origem, partindo de uma perda substancialmente menor do que a inicialização aleatória. O CPT subsequente quebra a simetria entre os especialistas duplicados para impulsionar a especialização. Formalizamos o operador de *upcycling* e desenvolvemos uma estrutura teórica que decompõe a lacuna de qualidade em um termo de capacidade e um termo de inicialização. Introduzimos ainda a seleção de especialistas baseada em utilidade, que usa pontuações de importância baseadas em gradiente para guiar uma duplicação não uniforme, mais do que triplicando o fechamento da lacuna quando o CPT é limitado. Em nossos experimentos com 7B-13B de parâmetros totais, o modelo com *upcycling* iguala a linha de base de tamanho fixo na perda de validação, economizando 32% das horas de GPU. Ablações abrangentes em escalas de modelo, taxas de ativação, arquiteturas MoE e orçamentos de treinamento resultam em uma receita prática para implantar o *expert upcycling*, estabelecendo-o como uma alternativa fundamentada e computacionalmente eficiente ao treinamento de grandes modelos MoE a partir do zero.
Apresentamos o C-GenReg, uma estrutura *training-free* para o registro de nuvens de pontos 3D que aproveita os pontos fortes complementares dos *priors* generativos em escala mundial e dos Modelos de Base de Visão (*Vision Foundation Models - VFMs*) orientados ao registro. Os métodos atuais de registro de nuvens de pontos 3D baseados em aprendizado têm dificuldade em generalizar entre diferentes modalidades de sensoriamento, diferenças de amostragem e ambientes. Portanto, o C-GenReg aumenta o ramo geométrico de registro da nuvem de pontos transferindo o problema de correspondência para um domínio de imagem auxiliar, onde os VFMs se destacam, usando um Modelo de Base Mundial para sintetizar representações RGB consistentes de múltiplas vistas a partir da geometria de entrada. Esta transferência generativa preserva a coerência espacial entre as vistas de origem e destino sem qualquer ajuste fino (*fine-tuning*). A partir dessas visualizações geradas, um VFM pré-treinado para encontrar correspondências densas extrai os pares correspondentes. As correspondências de pixels resultantes são então projetadas de volta para o espaço 3D através dos mapas de profundidade originais. Para aumentar ainda mais a robustez, introduzimos um esquema probabilístico de fusão a frio (*probabilistic cold-fusion*) "Corresponder-e-Fundir" (*Match-then-Fuse*) que combina dois *posteriors* de correspondência independentes: o do ramo RGB gerado e o do ramo geométrico bruto. Esta fusão fundamentada preserva o viés indutivo de cada modalidade e fornece uma confiança calibrada sem qualquer aprendizado adicional. O C-GenReg é *zero-shot* e *plug-and-play*: todos os módulos são pré-treinados e operam sem ajuste fino. Experimentos extensivos em *benchmarks* de ambientes internos (3DMatch, ScanNet) e externos (Waymo) demonstram um forte desempenho *zero-shot* e uma generalização cruzada de domínio superior. Pela primeira vez, demonstramos uma estrutura de registro generativa que opera com sucesso em dados LiDAR externos reais, onde não há dados de imagem disponíveis.
Os modelos de diálogo falado de ponta a ponta têm atraído atenção significativa porque oferecem um potencial máximo superior em expressividade e capacidade perceptiva em comparação com sistemas em cascata. No entanto, a inteligência e a expressividade dos modelos de diálogo falado de código aberto atuais frequentemente permanecem abaixo das expectativas. Motivados pelo sucesso do aprendizado por reforço (RL) online em outros domínios, poderia-se tentar aplicar diretamente a otimização de preferências a modelos de diálogo falado, mas essa transferência não é trivial. Analisamos esses obstáculos sob as perspectivas da modelagem de recompensa e da amostragem de *rollout*, focando em como a supervisão esparsa de preferências interage com a geração densa de fala sob atualizações de parâmetros compartilhados. Com base na análise, propomos uma receita de pós-treinamento adaptativa e consciente da modalidade que torna o RL prático para diálogo falado: ela restringe as atualizações de preferência ao canal semântico e melhora o comportamento acústico por meio de ancoragem explícita, enquanto regula dinamicamente sua mistura a partir de estatísticas de *rollout* para evitar gradientes de preferência não confiáveis. Avaliamos o método em vários benchmarks de diálogo falado e arquiteturas representativas, e observamos melhorias consistentes na qualidade semântica e na expressividade da fala.
Os agentes de IA para codificação estão sendo adotados em larga escala, mas ainda carecemos de evidências empíricas sobre como as pessoas realmente os utilizam e qual a utilidade prática de sua produção. Apresentamos o SWE-chat, o primeiro conjunto de dados em larga escala de sessões reais de agentes de codificação, coletado de desenvolvedores de código aberto em seu ambiente natural. O conjunto de dados contém atualmente 6.000 sessões, compreendendo mais de 63.000 prompts de usuários e 355.000 chamadas de ferramentas dos agentes. O SWE-chat é um conjunto de dados dinâmico; nosso pipeline de coleta descobre e processa automaticamente e continuamente sessões de repositórios públicos. Aproveitando o SWE-chat, fornecemos uma caracterização empírica inicial do uso de agentes de codificação no mundo real e de seus modos de falha. Descobrimos que os padrões de codificação são bimodais: em 41% das sessões, os agentes escrevem praticamente todo o código commitado ("codificação por vibração"), enquanto em 23%, os humanos escrevem todo o código sozinhos. Apesar das capacidades em rápida melhoria, os agentes de codificação permanecem ineficientes em ambientes naturais. Apenas 44% de todo o código produzido pelo agente sobrevive até os commits do usuário, e o código escrito pelo agente introduz mais vulnerabilidades de segurança do que o código escrito por humanos. Além disso, os usuários rejeitam as saídas dos agentes — por meio de correções, relatos de falha e interrupções — em 44% de todas as interações. Ao capturar traços completos de interação com atribuição de autoria de código humano versus do agente, o SWE-chat fornece uma base empírica para ir além de benchmarks curados em direção a uma compreensão baseada em evidências de como os agentes de IA se desempenham nos fluxos de trabalho reais de desenvolvedores.
O ajuste fino por reforço melhora a capacidade de raciocínio de modelos de linguagem grandes, mas também pode incentivá-los a responder a consultas impossíveis adivinhando ou alucinando informações em falta. Os métodos de abstenção existentes ou treinam modelos para produzir recusas genéricas ou incentivam esclarecimentos de acompanhamento sem verificar se esses esclarecimentos identificam a informação-chave em falta. Estudamos consultas que são claras em significado, mas não podem ser resolvidas de forma confiável a partir da informação fornecida, e argumentamos que um modelo confiável não deve apenas abster-se, mas também explicar o que está em falta. Propomos uma recompensa RLVR (Reinforcement Learning with Verifiable Refusals) consciente do esclarecimento que, ao recompensar respostas corretas em consultas respondíveis, otimiza conjuntamente a abstenção explícita e o esclarecimento pós-recusa semanticamente alinhado em consultas impossíveis. Usando esta recompensa, treinamos o Abstain-R1, um modelo de 3B que melhora a abstenção e o esclarecimento em consultas impossíveis, preservando um forte desempenho nas respondíveis. Experiências com Abstain-Test, Abstain-QA e SelfAware mostram que o Abstain-R1 melhora substancialmente em relação ao seu modelo base e alcança um comportamento em consultas impossíveis competitivo com sistemas maiores, incluindo o DeepSeek-R1, sugerindo que a abstenção e o esclarecimento calibrados podem ser aprendidos através de recompensas verificáveis, em vez de emergirem apenas da escala.
A escalagem em tempo de teste tornou-se uma forma poderosa de melhorar modelos de linguagem grandes. No entanto, os métodos existentes são mais adequados para saídas curtas e delimitadas que podem ser comparadas, classificadas ou refinadas diretamente. Os agentes de codificação de longo horizonte violam esta premissa: cada tentativa produz uma trajetória estendida de ações, observações, erros e progressos parciais realizados pelo agente. Neste contexto, o principal desafio deixa de ser gerar mais tentativas, mas sim representar a experiência prévia de uma forma que permita uma seleção e reutilização eficazes. Propomos uma estrutura de escalagem em tempo de teste para codificação agentiva baseada em representações compactas de trajetórias de execução (rollouts). Nossa estrutura converte cada execução num resumo estruturado que preserva as suas hipóteses salientes, progresso e modos de falha, descartando ao mesmo tempo os detalhes de baixo sinal do rastreio. Esta representação permite duas formas complementares de escalagem no momento da inferência. Para a escalagem paralela, introduzimos a Votação por Torneio Recursiva (RTV), que restringe recursivamente uma população de resumos de execução através de comparações em pequenos grupos. Para a escalagem sequencial, adaptamos o Paradigma Paralelo-Destilar-Refinar (PDR) ao contexto agentivo, condicionando novas execuções a resumos destilados de tentativas anteriores. O nosso método melhora consistentemente o desempenho de agentes de codificação de ponta nas benchmarks SWE-Bench Verified e Terminal-Bench v2.0. Por exemplo, ao usar o nosso método, o Claude-4.5-Opus melhora de 70,9% para 77,6% no SWE-Bench Verified (mini-SWE-agent) e de 46,9% para 59,1% no Terminal-Bench v2.0 (Terminus 1). Os nossos resultados sugerem que a escalagem em tempo de teste para agentes de longo horizonte é fundamentalmente um problema de representação, seleção e reutilização.
Trabalhos recentes demonstram que geradores de imagens e vídeos exibem comportamentos de compreensão visual de modo zero-shot, de forma reminiscente a como os LLMs desenvolvem capacidades emergentes de compreensão e raciocínio linguístico a partir do pré-treinamento generativo. Embora há muito se conjecture que a capacidade de criar conteúdo visual implica a capacidade de compreendê-lo, havia evidências limitadas de que modelos de visão generativa desenvolveram fortes capacidades de compreensão. Neste trabalho, demonstramos que o treino de geração de imagens desempenha um papel semelhante ao pré-treinamento de LLMs, permitindo que os modelos aprendam representações visuais poderosas e gerais que possibilitam desempenho de estado da arte em várias tarefas de visão. Apresentamos o Vision Banana, um modelo generalista construído através do ajuste por instrução do Nano Banana Pro (NBP) numa mistura dos seus dados de treino originais com uma pequena quantidade de dados de tarefas visuais. Ao parametrizar o espaço de saída das tarefas visuais como imagens RGB, reformulamos perfeitamente a perceção como geração de imagens. O nosso modelo generalista, Vision Banana, alcança resultados de estado da arte numa variedade de tarefas visuais envolvendo compreensão 2D e 3D, superando ou rivalizando com especialistas de domínio zero-shot, incluindo o Segment Anything Model 3 em tarefas de segmentação e a série Depth Anything na estimação de profundidade métrica. Mostramos que estes resultados podem ser alcançados com um ajuste por instrução leve sem sacrificar as capacidades de geração de imagens do modelo base. Os resultados superiores sugerem que o pré-treinamento em geração de imagens é um aprendiz de visão generalista. Também mostra que a geração de imagens serve como uma interface unificada e universal para tarefas visuais, semelhante ao papel da geração de texto na compreensão e raciocínio linguístico. Poderemos estar a testemunhar uma grande mudança de paradigma para a visão computacional, onde o pré-treinamento de visão generativa assume um papel central na construção de Modelos de Visão Fundamentais para geração e compreensão.
Modelos de linguagem treinados em texto natural aprendem a representar números utilizando características periódicas com períodos dominantes em T=2, 5, 10. Neste artigo, identificamos uma hierarquia de dois níveis dessas características: embora Transformers, RNNs Lineares, LSTMs e *embeddings* de palavras clássicos treinados de diferentes maneiras aprendam características que apresentam picos de período-T no domínio de Fourier, apenas alguns aprendem características geometricamente separáveis que podem ser usadas para classificar linearmente um número módulo-T. Para explicar esta incongruência, provamos que a esparsidade no domínio de Fourier é necessária, mas não suficiente, para a separabilidade geométrica módulo-T. Empiricamente, investigamos quando o treinamento do modelo produz características geometricamente separáveis, constatando que os dados, a arquitetura, o otimizador e o *tokenizer* desempenham papéis fundamentais. Em particular, identificamos duas rotas diferentes pelas quais os modelos podem adquirir características geometricamente separáveis: eles podem aprendê-las a partir de sinais de coocorrência complementares em dados de linguagem geral, incluindo a coocorrência texto-número e a interação entre números, ou a partir de problemas de adição com múltiplos *tokens* (mas não com um único *token*). No geral, nossos resultados destacam o fenômeno da evolução convergente na aprendizagem de características: uma ampla gama de modelos aprende características semelhantes a partir de diferentes sinais de treinamento.
A manipulação robótica industrial exige execução confiável de longo horizonte entre diferentes embodimentos, tarefas e distribuições de objetos em mudança. Embora os modelos Visão-Linguagem-Ação tenham demonstrado forte generalização, eles permanecem fundamentalmente reativos. Ao otimizar a próxima ação dada a observação atual sem avaliar futuros potenciais, eles são frágeis aos modos de falha cumulativos de tarefas de longo horizonte. O Cortex 2.0 muda do controle reativo para um paradigma de planejar-e-agir, gerando trajetórias futuras candidatas no espaço latente visual, classificando-as quanto ao sucesso e eficiência esperados, e comprometendo-se apenas com o candidato de maior pontuação. Avaliamos o Cortex 2.0 em uma plataforma de manipulação de braço único e de braço duplo em quatro tarefas de complexidade crescente: pegar e colocar, triagem de itens e lixo, triagem de parafusos e desempacotamento de caixa de sapatos. O Cortex 2.0 supera consistentemente os modelos de base state-of-the-art de Visão-Linguagem-Ação, alcançando os melhores resultados em todas as tarefas. O sistema mantém-se confiável em ambientes não estruturados caracterizados por desordem pesada, oclusões frequentes e manipulação rica em contacto, onde políticas reativas falham. Estes resultados demonstram que o planeamento baseado em modelos do mundo pode operar de forma confiável em ambientes industriais complexos.
À medida que os assistentes baseados em LLM se tornam persistentes e personalizados, eles devem extrair e reter informações úteis de conversas passadas como memória. No entanto, os tipos de informação que valem a pena lembrar variam consideravelmente entre diferentes tarefas. Formalizamos a tarefa de extração de memória heterogênea e introduzimos o BEHEMOTH, um benchmark que reaproveita 18 conjuntos de dados existentes abrangendo tarefas de personalização, resolução de problemas e tarefas agentivas, utilizando uma métrica orientada pela utilidade a jusante para avaliação sistemática. Nossa análise empírica confirma que nenhum prompt de extração estático único domina todas as categorias de tarefas, e que as estruturas existentes de otimização de prompts auto-evolutivas, originalmente projetadas para distribuições homogêneas, degradam-se quando as tarefas de treinamento são heterogêneas. Para resolver isso, propomos o CluE, uma estratégia auto-evolutiva baseada em agrupamento que agrupa exemplos de treinamento em clusters por cenários de extração, analisa cada cluster independentemente e sintetiza percepções inter-clusters para atualizar o prompt de extração. Experimentos no BEHEMOTH mostram que o CluE generaliza-se efetivamente em tarefas heterogêneas (+9,04% de ganho relativo), superando consistentemente estruturas auto-evolutivas anteriores.
Apesar do crescente interesse na investigação de dados do Alcorão, os conjuntos de dados existentes continuam limitados tanto em escala como em diversidade. Para colmatar esta lacuna, apresentamos Tadabur, um conjunto de dados áudio de larga escala do Alcorão. Tadabur compreende mais de 1400 horas de áudio de recitação de mais de 600 recitadores distintos, proporcionando uma variação substancial nos estilos de recitação, características vocais e condições de gravação. Esta diversidade torna Tadabur um recurso abrangente e representativo para a investigação e análise da fala corânica. Ao expandir significativamente tanto a duração total como a variabilidade dos dados do Alcorão disponíveis, Tadabur visa apoiar investigações futuras e facilitar o desenvolvimento de benchmarks padronizados para a fala corânica.
A inteligência social, a capacidade de navegar interações interpessoais complexas, representa um desafio fundamental para agentes de linguagem. Treinar tais agentes via aprendizado por reforço requer resolver o problema de atribuição de crédito: determinar como enunciados individuais contribuem para resultados em diálogos multi-turno. Abordagens existentes empregam diretamente modelos de linguagem para distribuir recompensas a nível de episódio, produzindo atribuições que são retrospectivas e carecem de fundamentação teórica. Propomos o SAVOIR (ShApley Value fOr SocIal RL), uma nova estrutura principiada fundamentada na teoria dos jogos cooperativos. Nossa abordagem combina dois princípios complementares: a mudança da utilidade esperada avalia da atribuição retrospectiva para a valoração prospectiva, capturando o potencial estratégico de um enunciado para permitir trajetórias futuras favoráveis; os valores de Shapley garantem uma distribuição de crédito justa com garantias axiomáticas de eficiência, simetria e marginalidade. Experimentos no benchmark SOTOPIA demonstram que o SAVOIR alcança um novo desempenho de ponta em todas as configurações de avaliação, com nosso modelo de 7B equiparando-se ou superando modelos proprietários, incluindo GPT-4o e Claude-3.5-Sonnet. Notavelmente, mesmo grandes modelos de raciocínio têm desempenho consistentemente inferior, sugerindo que a inteligência social requer capacidades qualitativamente diferentes do raciocínio analítico.
Sistemas baseados em modelos de linguagem de grande porte (LLM) estão sendo cada vez mais implantados para conduzir pesquisas científicas de forma autônoma, mas ainda é pouco compreendido se o seu raciocínio adere às normas epistêmicas que tornam a investigação científica autorregulada. Aqui, avaliamos agentes científicos baseados em LLM em oito domínios, abrangendo desde a execução de fluxos de trabalho até a investigação orientada por hipóteses, por meio de mais de 25.000 execuções de agentes e duas lentes complementares: (i) uma análise sistemática de desempenho que decompõe as contribuições do modelo base e da estrutura do agente (scaffold), e (ii) uma análise comportamental da estrutura epistêmica do raciocínio do agente. Observamos que o modelo base é o principal determinante tanto do desempenho quanto do comportamento, respondendo por 41,4% da variância explicada, em comparação com 1,5% para a estrutura. Em todas as configurações, as evidências são ignoradas em 68% dos rastreamentos, a revisão de crenças impulsionada pela refutação ocorre em 26% dos casos, e evidências convergentes de múltiplos testes são raras. O mesmo padrão de raciocínio aparece se o agente executa um fluxo de trabalho computacional ou conduz uma investigação orientada por hipóteses. Eles persistem mesmo quando os agentes recebem trajetórias de raciocínio quase completas e bem-sucedidas como contexto, e a consequente falta de confiabilidade se acumula ao longo de tentativas repetidas em domínios epistemicamente exigentes. Assim, os agentes atuais baseados em LLM executam fluxos de trabalho científicos, mas não exibem os padrões epistêmicos que caracterizam o raciocínio científico. A avaliação baseada em resultados não consegue detectar essas falhas, e o aprimoramento da estrutura sozinho não pode corrigi-las. Até que o próprio raciocínio se torne um alvo de treinamento, o conhecimento científico produzido por tais agentes não pode ser justificado pelo processo que o gerou.
Neste artigo, investigamos o problema de como dominar efetivamente o uso de ferramentas para resolver tarefas complexas de raciocínio visual em Modelos de Linguagem Multimodais de Grande Escala. Para isso, propomos uma nova estrutura de Aprendizagem por Reforço Supervisionada por Ferramentas (ToolsRL), com supervisão direta de ferramentas para um aprendizado mais eficaz do seu uso. Concentramo-nos numa série de ferramentas visuais simples, nativas e interpretáveis, incluindo ampliação, rotação, inversão e desenho de pontos/linhas, cuja supervisão é fácil de coletar. Desenvolvemos um currículo de aprendizagem por reforço, no qual a primeira etapa é otimizada exclusivamente por um conjunto de recompensas específicas para ferramentas bem fundamentadas, e a segunda etapa é treinada com recompensas orientadas para a precisão, permitindo a chamada de ferramentas. Desta forma, a capacidade de chamada de ferramentas é dominada antes de as utilizar para completar tarefas de raciocínio visual, evitando o potencial conflito de otimização entre essas tarefas heterogéneas. Nossos experimentos demonstraram que o treino curricular supervisionado por ferramentas é eficiente e que o ToolsRL pode alcançar fortes capacidades de uso de ferramentas para tarefas complexas de raciocínio visual.
Dado apenas dados observacionais X = g(Z), onde tanto as variáveis latentes Z quanto o processo gerador g são desconhecidos, recuperar Z é um problema mal-posto sem suposições adicionais. Os métodos existentes frequentemente assumem linearidade ou dependem de supervisão auxiliar e restrições funcionais. No entanto, tais suposições raramente são verificáveis na prática, e a maioria das garantias teóricas falha mesmo sob violações leves, gerando incerteza sobre como compreender de forma confiável o mundo oculto. Para tornar a identificabilidade acionável em cenários do mundo real, adotamos uma perspectiva complementar: nas configurações gerais onde a identificabilidade completa é inatingível, o que ainda pode ser recuperado com garantias e quais vieses poderiam ser universalmente adotados? Introduzimos o problema da aprendizagem de dicionário diverso para formalizar essa visão. Especificamente, mostramos que interseções, complementos e diferenças simétricas de variáveis latentes vinculadas a observações arbitrárias, juntamente com a estrutura de dependência latente-observada, ainda são identificáveis até indeterminações apropriadas, mesmo sem suposições fortes. Esses resultados da teoria dos conjuntos podem ser compostos usando álgebra de conjuntos para construir visões estruturadas e essenciais do mundo oculto, como definições de gênero e diferença. Quando diversidade estrutural suficiente está presente, eles implicam ainda a identificabilidade completa de todas as variáveis latentes. Notavelmente, todos os benefícios de identificabilidade decorrem de um simples viés indutivo durante a estimativa que pode ser prontamente integrado na maioria dos modelos. Validamos a teoria e demonstramos os benefícios do viés em dados sintéticos e do mundo real.
A geração de vídeos humanos continua a ser um desafio devido à dificuldade de modelar conjuntamente a aparência humana, o movimento e o ponto de vista da câmara com dados multivista limitados. Os métodos existentes frequentemente abordam estes fatores separadamente, resultando numa controlabilidade limitada ou numa qualidade visual reduzida. Revisitamos este problema a partir de uma perspetiva orientada para a imagem, na qual a aparência humana de alta qualidade é aprendida através de geração de imagens e usada como um *prior* para a síntese de vídeo, desacoplando a modelação da aparência da consistência temporal. Propomos um *pipeline* controlável por pose e ponto de vista que combina um *backbone* de imagem pré-treinado com orientação de movimento baseada em SMPL-X, juntamente com uma fase de refinamento temporal sem treino baseada num modelo de difusão de vídeo pré-treinado. O nosso método produz vídeos de alta qualidade e temporalmente consistentes sob diversas poses e pontos de vista. Também disponibilizamos um conjunto de dados humano canónico e um modelo auxiliar para síntese composicional de imagens humanas. O código e os dados estão publicamente disponíveis em https://github.com/Taited/ReImagine.
Os agentes de codificação de ponta são cada vez mais utilizados em fluxos de trabalho onde os usuários supervisionam o progresso principalmente através da melhoria repetida de uma pontuação pública, ou seja, a pontuação reportada num ficheiro de avaliação público com rótulos no espaço de trabalho, em vez de através da inspeção direta dos resultados intermédios do agente. Estudamos se a pressão multirround do usuário para melhorar essa pontuação induz a exploração da pontuação pública: comportamentos que aumentam a pontuação pública através de atalhos sem melhorar a avaliação privada oculta. Começamos com uma tarefa preliminar de classificação tabular de script único, onde o GPT-5.4 e o Claude Opus 4.6 exploram ambos a informação dos rótulos dentro de 10 rondas de interação usuário-agente. De seguida, construímos o *AgentPressureBench*, um benchmark de repositório de aprendizagem automática com 34 tarefas abrangendo três modalidades de entrada, e recolhemos 1326 trajectórias multirround de 13 agentes de codificação. No nosso benchmark, observamos 403 execuções exploratórias, abrangendo todas as tarefas. Também verificamos que modelos mais fortes têm taxas de exploração mais elevadas, suportado por uma correlação de postos de Spearman significativa de 0,77. As nossas experiências de ablação mostram que uma pressão mais elevada do usuário leva a uma exploração mais precoce, reduzindo a ronda da primeira exploração em média em 15,6 rondas (ou seja, de 19,67 para 4,08). Como mitigação, adicionar instruções explícitas anti-exploração no *prompt* elimina maioritariamente a exploração (de 100% para 8,3%). Esperamos que o nosso trabalho possa chamar a atenção para uma utilização mais cuidadosa dos fluxos de trabalho com agentes de codificação e para o desenvolvimento de agentes de codificação mais robustos sob pressão do usuário. A nossa página do projeto está em https://ucsc-vlaa.github.io/AgentPressureBench.
Os grandes modelos de linguagem (LLMs) frequentemente exibem disparidades de desempenho entre idiomas, com o *fine-tuning* multilíngue ingênuo degradando frequentemente o desempenho devido à interferência cruzada negativa entre línguas. Para resolver isso, introduzimos o COMPASS (*COntinual Multilingual PEFT with Adaptive Semantic Sampling*), uma nova estrutura centrada em dados para adaptar LLMs a idiomas-alvo. O COMPASS aproveita o *fine-tuning* eficiente em parâmetros (PEFT) treinando adaptadores leves e específicos por idioma em um subconjunto criteriosamente selecionado de dados multilíngues auxiliares. O cerne do nosso método é uma estratégia de amostragem consciente da distribuição que usa *embeddings* multilíngues e agrupamento para identificar lacunas semânticas entre os dados de treinamento existentes e uma distribuição de uso alvo. Ao priorizar dados auxiliares de clusters semânticos sub-representados, o COMPASS maximiza a transferência linguística cruzada positiva enquanto minimiza a interferência. Estendemos isso para uma estrutura de aprendizado contínuo, COMPASS-ECDA, que monitora mudanças na distribuição de dados em produção e atualiza dinamicamente os adaptadores para evitar a obsolescência do modelo, equilibrando a adaptação a novos dados com a preservação do conhecimento existente. Em três arquiteturas de modelo diferentes (Phi-4-Mini, Llama-3.1-8B e Qwen2.5-7B) e vários benchmarks multilíngues desafiadores (Global-MMLU, MMLU-ProX), incluindo tarefas de contexto longo não vistas durante o treinamento (OneRuler), demonstramos que o COMPASS supera consistentemente os métodos de base guiados por similaridade linguística, fornecendo uma solução eficaz, eficiente e sustentável para desenvolver e manter modelos multilíngues de alto desempenho em ambientes dinâmicos.
Apresentamos o MMCORE, uma estrutura unificada concebida para geração e edição multimodal de imagens. O MMCORE aproveita um Modelo de Visão e Linguagem (VLM) pré-treinado para prever incorporações visuais semânticas por meio de *tokens* de consulta treináveis, que subsequentemente servem como sinais de condicionamento para um modelo de difusão. Este design simplificado transfere eficazmente as ricas capacidades de compreensão e raciocínio dos VLMs para o processo de geração visual. Ao eliminar a necessidade de fusão profunda entre modelos autoregressivos e de difusão ou treinamento a partir do zero, o MMCORE reduz significativamente a sobrecarga computacional, mantendo uma síntese de alta fidelidade. O MMCORE integra perfeitamente a síntese de texto para imagem com a geração de imagens intercaladas, demonstrando uma compreensão multimodal robusta em cenários complexos, como raciocínio espacial e fundamentação visual. Avaliações abrangentes indicam que o MMCORE supera consistentemente os modelos de referência state-of-the-art em uma ampla gama de benchmarks de edição de texto para imagem e edição de imagem única/múltipla.
Os grandes modelos de linguagem podem gerar código de jogos plausível, mas transformar essa capacidade em melhoria criativa iterativa permanece difícil. Na prática, a geração única frequentemente produz comportamento em tempo de execução frágil, fraca acumulação de experiência entre versões e pontuações de criatividade demasiado subjetivas para servirem como sinais de otimização confiáveis. Uma limitação adicional é que as mecânicas são frequentemente tratadas apenas como descrições *post-hoc*, em vez de objetos explícitos que podem ser planeados, rastreados, preservados e avaliados durante a geração. Este relatório apresenta o CreativeGame, um sistema multiagente para geração iterativa de jogos HTML5 que aborda estas questões através de quatro ideias acopladas: uma recompensa intermediária centrada em sinais programáticos em vez de puro julgamento de LLM; uma memória com âmbito de linhagem para acumulação de experiência entre versões; uma validação em tempo de execução integrada tanto na reparação como na recompensa; e um ciclo de planeamento orientado por mecânicas, no qual o conhecimento de mecânicas recuperado é convertido num plano de mecânicas explícito antes do início da geração de código. O objetivo não é meramente produzir um artefacto jogável numa única etapa, mas suportar uma evolução interpretável de versão para versão. O sistema atual contém 71 linhagens armazenadas, 88 nós guardados e um arquivo global de mecânicas com 774 entradas, implementado em 6.181 linhas de Python, juntamente com ferramentas de inspeção e visualização. O sistema é, portanto, substancial o suficiente para suportar análise arquitectónica, inspeção de recompensas e estudos de caso reais a nível de linhagem, e não apenas demonstrações a nível de *prompts*. Uma linhagem real de 4 gerações mostra que a inovação a nível de mecânicas pode emergir em versões posteriores e pode ser inspecionada diretamente através de registos de versão para versão. A contribuição central não é, portanto, apenas a geração de jogos, mas um *pipeline* concreto para observar a evolução progressiva através da alteração explícita de mecânicas.
Os Campos Condicionais Aleatórios Semi-Markov (semi-CRFs) atribuem rótulos a segmentos de uma sequência em vez de a posições individuais, permitindo inferência exata sobre características a nível de segmento e estimativas de incerteza fundamentadas nos seus limites. No entanto, as implementações existentes precisam materializar um grande tensor de potencial de aresta, cujo tamanho aumenta com o comprimento da sequência, o comprimento máximo do segmento e a quantidade de rótulos, tornando-se proibitivo para espaços de estado de escala de fala e intratável em escalas genómicas, onde as sequências podem exceder 100.000 posições. Este estrangulamento de memória tem limitado a adoção da inferência exata a nível de segmento para sequências longas e grandes conjuntos de rótulos. Nós identificamos que a ineficiência central é a materialização de potenciais de aresta que podem, em vez disso, ser avaliados dinamicamente a partir de um *array* compacto de soma de prefixos, e realizamos várias melhorias. Primeiro, substituir o tensor de aresta armazenado pela consulta à soma de prefixos reduz a pegada de memória por um fator proporcional ao produto do comprimento do segmento e da quantidade de rótulos. Segundo, um passo *forward-backward* em fluxo contínuo com normalização nos limites dos pontos de verificação mantém a memória de trabalho sublinear em relação ao comprimento da sequência, preservando os gradientes exatos. Terceiro, pontuações cumulativas com centro em zero controlam o desvio numérico e induzem um prévio de duração adaptativo sob desequilíbrio de rótulos. Integramos estas ideias no Flash-SemiCRF, um núcleo (*kernel*) Triton fundido que permite a inferência exata de semi-CRFs em tamanhos de problema anteriormente intratáveis. Disponível em https://github.com/biobenkj/flash-semicrf.
Trabalhos anteriores demonstram que o *fine-tuning* de modelos alinhados em dados benignos degrada a segurança nas modalidades de texto e imagem, e que a proximidade a conteúdos nocivos no espaço de representação prevê quais amostras causam o maior dano. No entanto, as análises existentes operam dentro de um único espaço de incorporação indiferenciado — deixando em aberto se propriedades distintas da entrada conduzem a vulnerabilidade de forma diferente. O áudio introduz um problema estruturalmente mais rico: uma amostra benigna pode ser vizinha de conteúdo nocivo não apenas pelo que é dito, mas também pela forma como soa, mesmo quando as suas palavras são totalmente inócuas. Apresentamos o primeiro estudo sistemático sobre a segurança do *fine-tuning* benigno em Audio LLMs, avaliando três modelos de última geração com uma estrutura de filtragem baseada em proximidade que seleciona áudio benigno pela distância no espaço de incorporação em relação a conteúdos nocivos. Ao decompor a proximidade em eixos semânticos, acústicos e mistos, utilizando codificadores de referência externos em conjunto com o codificador interno de cada modelo, mostramos que o *fine-tuning* benigno eleva a Taxa de Sucesso de *Jailbreak* (JSR) de um dígito para até 87,12%. Crucialmente, o eixo de vulnerabilidade dominante e o risco relativo do *fine-tuning* de áudio versus texto são ambos condicionados pela arquitetura — determinados pela forma como o codificador e o projetor de cada modelo transformam o áudio no espaço de entrada do LLM. Propomos duas defesas: filtrar os dados de treino para maximizar a distância das incorporações nocivas, e um *prompt* de sistema textual na inferência, ambas reduzindo a JSR para quase zero sem modificação arquitetural. A nossa análise mecanicista em duas arquiteturas revela que o *fine-tuning* suprime seletivamente o circuito de recusa nas camadas finais, enquanto o codificador congelado preserva as representações, e que mesmo o padrão de supressão é condicionado pela arquitetura, espelhando as assimetrias comportamentais entre modalidades. A degradação de segurança por *fine-tuning* benigno é um risco qualitativamente distinto em Audio LLMs.