Artigos de pesquisa em IA selecionados diariamente com traduções
O surgimento de sistemas multiagentes construídos a partir de grandes modelos de linguagem (LLMs) oferece um paradigma promissor para a inteligência coletiva escalável e a auto-evolução. Idealmente, tais sistemas alcançariam uma melhoria contínua em um ciclo completamente fechado, mantendo ao mesmo tempo um alinhamento robusto de segurança – uma combinação que denominamos de trilema da auto-evolução. No entanto, demonstramos tanto teórica quanto empiricamente que uma sociedade de agentes que satisfaça a auto-evolução contínua, o isolamento completo e a invariância de segurança é impossível. Com base em um arcabouço teórico da informação, formalizamos a segurança como o grau de divergência em relação a distribuições de valores antrópicos. Demonstramos teoricamente que a auto-evolução isolada induz pontos cegos estatísticos, levando à degradação irreversível do alinhamento de segurança do sistema. Resultados empíricos e qualitativos de uma comunidade de agentes de mundo aberto (Moltbook) e de dois sistemas fechados de auto-evolução revelam fenômenos que se alinham com a nossa previsão teórica de erosão inevitável da segurança. Propomos ainda várias direções de solução para atenuar a preocupação de segurança identificada. O nosso trabalho estabelece um limite fundamental para as sociedades de IA auto-evolutivas e desloca o discurso dos remendos de segurança orientados a sintomas para uma compreensão fundamentada dos riscos dinâmicos intrínsecos, destacando a necessidade de supervisão externa ou de novos mecanismos de preservação da segurança.
Os prompts verificáveis em larga escala sustentam o sucesso do Aprendizado por Reforço com Recompensas Verificáveis (RLVR), mas contêm muitos exemplos pouco informativos e são custosos para expandir. Estudos recentes concentram-se em explorar melhor os dados de treinamento limitados, priorizando prompts difíceis cuja taxa de aprovação (rollout pass rate) é 0. No entanto, prompts fáceis com taxa de aprovação de 1 também se tornam cada vez mais prevalentes com o progresso do treinamento, reduzindo assim o tamanho efetivo dos dados. Para mitigar isso, propomos o Composition-RL, uma abordagem simples mas útil para melhor utilizar prompts verificáveis limitados, direcionando-se especificamente aos prompts com taxa de aprovação 1. Mais especificamente, o Composition-RL compõe automaticamente múltiplos problemas em uma nova questão verificável e utiliza esses prompts composicionais para o treinamento por RL. Experimentos extensos em modelos com tamanhos variando de 4B a 30B mostram que o Composition-RL melhora consistentemente a capacidade de raciocínio em relação ao RL treinado no conjunto de dados original. O desempenho pode ser ainda mais impulsionado com uma variante curricular do Composition-RL que aumenta gradualmente a profundidade composicional durante o treinamento. Adicionalmente, o Composition-RL permite um RL mais eficaz entre domínios (cross-domain) ao compor prompts extraídos de diferentes domínios. Códigos, conjuntos de dados e modelos estão disponíveis em https://github.com/XinXU-USTC/Composition-RL.
Os modelos multimodais unificados atuais para geração e edição de imagens geralmente dependem de escalas massivas de parâmetros (ex: >10B), implicando custos proibitivos de treinamento e pegadas de implantação. Neste trabalho, apresentamos o DeepGen 1.0, um modelo unificado leve de 5B que alcança capacidades abrangentes competitivas ou superiores a contrapartidas muito maiores. Para superar as limitações de modelos compactos em compreensão semântica e controle refinado, introduzimos o Stacked Channel Bridging (SCB), uma estrutura de alinhamento profundo que extrai características hierárquicas de múltiplas camadas de VLM e as funde com 'tokens de pensamento' aprendíveis para fornecer ao backbone gerativo uma orientação estruturada e rica em raciocínio. Projetamos ainda uma estratégia de treinamento centrada em dados abrangendo três estágios progressivos: (1) Pré-treinamento de Alinhamento em pares massivos de imagem-texto e tripletos de edição para sincronizar representações de VLM e DiT, (2) Ajuste Fino Supervisionado Conjunto em uma mistura de alta qualidade de tarefas de geração, edição e raciocínio para desenvolver capacidades omni, e (3) Aprendizado por Reforço com MR-GRPO, que aproveita uma mistura de funções de recompensa e sinais de supervisão, resultando em ganhos substanciais na qualidade de geração e alinhamento com preferências humanas, enquanto mantém progresso de treinamento estável e evita artefatos visuais. Apesar de treinado em apenas ~50M de amostras, o DeepGen 1.0 alcança desempenho líder em diversos benchmarks, superando o HunyuanImage de 80B em 28% no WISE e o Qwen-Image-Edit de 27B em 37% no UniREditBench. Ao disponibilizar nosso código de treinamento, pesos e conjuntos de dados em código aberto, fornecemos uma alternativa eficiente e de alto desempenho para democratizar a pesquisa multimodal unificada.
Os modelos visão-linguagem-ação (VLA) que preveem diretamente sequências de ações multi-etapa a partir de observações atuais enfrentam limitações inerentes devido à compreensão restrita da cena e a capacidades fracas de antecipação futura. Em contraste, os modelos de mundo de vídeo pré-treinados em corpora de vídeo em escala da web exibem raciocínio espaço-temporal robusto e previsão futura precisa, tornando-os uma base natural para aprimorar o aprendizado VLA. Portanto, propomos o GigaBrain-0.5M*, um modelo VLA treinado via aprendizado por reforço baseado em modelo de mundo. Construído sobre o GigaBrain-0.5, que é pré-treinado em mais de 10.000 horas de dados de manipulação robótica, cuja versão intermediária atualmente ocupa a primeira posição no benchmark internacional RoboChallenge. O GigaBrain-0.5M* integra ainda mais o aprendizado por reforço baseado em modelo de mundo via RAMP (Reinforcement leArning via world Model-conditioned Policy) para permitir uma adaptação robusta entre tarefas. Resultados empíricos demonstram que o RAMP alcança ganhos substanciais de desempenho sobre a linha de base RECAP, produzindo melhorias de aproximadamente 30% em tarefas desafiadoras, incluindo Dobragem de Roupa, Empacotamento de Caixas e Preparo de Espresso. Criticalmente, o GigaBrain-0.5M* exibe execução confiável de longo horizonte, realizando consistentemente tarefas complexas de manipulação sem falhas, conforme validado por vídeos de implantação no mundo real em nossa {página do projeto}[https://gigabrain05m.github.io].
A destilação em política (OPD), que alinha o aluno com a distribuição de logits do professor em trajetórias geradas pelo aluno, demonstrou ganhos empíricos significativos na melhoria do desempenho do aluno e frequentemente supera os paradigmas de destilação fora da política e de aprendizagem por reforço (RL). Neste trabalho, primeiro demonstramos teoricamente que a OPD é um caso especial de RL densa com restrição de KL, onde a função de recompensa e a regularização KL são sempre ponderadas igualmente e o modelo de referência pode ser qualquer modelo. Em seguida, propomos a estrutura de Destilação Generalizada em Política (G-OPD), que estende o objetivo padrão da OPD ao introduzir um modelo de referência flexível e um fator de escala de recompensa que controla o peso relativo do termo de recompensa contra a regularização KL. Através de experimentos abrangentes em tarefas de raciocínio matemático e geração de código, derivamos duas novas percepções: (1) Definir o fator de escala de recompensa para ser maior que 1 (ou seja, extrapolação de recompensa), que denominamos ExOPD, melhora consistentemente em relação à OPD padrão em uma variedade de pares de tamanho professor-aluno. Em particular, na configuração em que fundimos o conhecimento de diferentes especialistas de domínio, obtidos pela aplicação de RL específico de domínio ao mesmo modelo aluno, de volta ao aluno original, a ExOPD permite que o aluno ultrapasse até mesmo o limite de desempenho do professor e supere os professores de domínio. (2) Com base na ExOPD, descobrimos ainda que, na configuração de destilação forte-para-fraco (ou seja, destilar um aluno menor a partir de um professor maior), realizar a correção de recompensa escolhendo o modelo de referência como o modelo base do professor antes do RL produz um sinal de recompensa mais preciso e melhora ainda mais o desempenho da destilação. No entanto, esta escolha pressupõe o acesso à variante pré-RL do professor e incorre em maior sobrecarga computacional. Esperamos que o nosso trabalho ofereça novas perspetivas para futuras pesquisas sobre OPD.
Os tokenizadores de áudio discretos são fundamentais para capacitar modelos de linguagem de grande escala com capacidades nativas de processamento e geração de áudio. Apesar dos progressos recentes, as abordagens existentes frequentemente dependem de codificadores pré-treinados, destilação semântica ou arquiteturas heterogéneas baseadas em CNN. Estes projetos introduzem vieses indutivos fixos que limitam a fidelidade de reconstrução e dificultam a escalabilidade eficaz. Neste artigo, argumentamos que a tokenização de áudio discreta deve ser aprendida de forma totalmente end-to-end usando uma arquitetura homogénea e escalável. Para esse fim, propomos primeiro o CAT (Causal Audio Tokenizer with Transformer), uma arquitetura puramente baseada em Transformer que otimiza conjuntamente o codificador, o quantizador e o decodificador a partir do zero para uma reconstrução de alta fidelidade. Com base na arquitetura CAT, desenvolvemos o MOSS-Audio-Tokenizer, um tokenizador de áudio de grande escala com 1,6 mil milhões de parâmetros, pré-treinado em 3 milhões de horas de dados de áudio diversos e gerais. Mostramos que esta abordagem simples, totalmente end-to-end, construída a partir de blocos Transformer homogéneos e causais, escala de forma graciosa e suporta reconstrução de alta fidelidade em diversos domínios de áudio. Em discurso, som e música, o MOSS-Audio-Tokenizer supera consistentemente os codecs anteriores numa ampla gama de taxas de bits, ao mesmo tempo que exibe melhorias previsíveis com o aumento de escala. Notavelmente, aproveitando os tokens discretos do nosso modelo, desenvolvemos o primeiro modelo TTS puramente autoregressivo que supera os sistemas não autoregressivos e em cascata anteriores. Além disso, o MOSS-Audio-Tokenizer permite um desempenho competitivo em ASR sem codificadores auxiliares. As nossas descobertas posicionam a arquitetura CAT como uma interface unificada e escalável para a próxima geração de modelos de base de áudio nativos.
A síntese de trilhas sonoras coerentes para vídeos de longa duração permanece um desafio formidável, atualmente estagnada por três impedimentos críticos: escalabilidade computacional, coerência temporal e, mais crucialmente, uma cegueira semântica generalizada para a lógica narrativa em evolução. Para superar essas lacunas, propomos o NarraScore, uma estrutura hierárquica baseada na premissa central de que a emoção serve como uma compressão de alta densidade da lógica narrativa. De forma única, reaproveitamos Modelos de Visão e Linguagem (VLMs) congelados como sensores afetivos contínuos, destilando fluxos visuais de alta dimensão em trajetórias densas e conscientes da narrativa de Valência-Excitação. Mecanicamente, o NarraScore emprega uma estratégia de Injeção Dual para reconciliar a estrutura global com o dinamismo local: uma Âncora Semântica Global garante estabilidade estilística, enquanto um Adaptador Afetivo de Nível de Token modula a tensão local via injeção residual direta elemento a elemento. Este design minimalista contorna os gargalos da atenção densa e da clonagem arquitetônica, mitigando efetivamente os riscos de sobreajuste associados à escassez de dados. Experimentos demonstram que o NarraScore alcança consistência e alinhamento narrativo de última geração com sobrecarga computacional insignificante, estabelecendo um paradigma totalmente autônomo para a geração de trilhas sonoras para vídeos longos.
O raciocínio jurídico exige não apenas resultados corretos, mas também processos de fundamentação conformes ao procedimento. No entanto, os métodos existentes carecem de mecanismos para verificar as etapas intermediárias do raciocínio, permitindo que erros, como citações de artigos legais inaplicáveis, propaguem-se sem detecção pela cadeia de fundamentação. Para resolver isso, propomos o LawThinker, um agente autônomo de pesquisa jurídica que adota uma estratégia Explorar-Verificar-Memorizar para ambientes judiciais dinâmicos. A ideia central é impor a verificação como uma operação atômica após cada etapa de exploração de conhecimento. Um módulo DeepVerifier examina cada resultado de recuperação ao longo de três dimensões: precisão do conhecimento, relevância fato-direito e conformidade processual, contando com um módulo de memória para reutilização de conhecimento entre fases em tarefas de longo horizonte. Experimentos no benchmark dinâmico J1-EVAL mostram que o LawThinker alcança uma melhoria de 24% em relação ao raciocínio direto e um ganho de 11% sobre métodos baseados em fluxo de trabalho, com melhorias particularmente fortes em métricas orientadas ao processo. Avaliações em três benchmarks estáticos confirmam ainda mais sua capacidade de generalização. O código está disponível em https://github.com/yxy-919/LawThinker-agent.
Os modelos multimodais de grande dimensão existentes alcançaram percepção visual de alta fidelidade e geração visual exploratória. No entanto, persiste um paradoxo de precisão em tarefas complexas de raciocínio: os sistemas de percepção ótica transcrevem símbolos sem capturar a topologia lógica, enquanto os modelos generativos baseados em pixels produzem artefactos visuais carentes de exatidão matemática. Para colmatar esta lacuna, propomos que o raciocínio sobre inputs visuais seja reconceptualizado como descompressão ótica - o processo de reconstruir estruturas lógicas latentes a partir de tokens visuais comprimidos. Guiados pelo axioma de que Analisar é Raciocinar, introduzimos o Pensamento com Rascunho (TwD), que utiliza uma Linguagem Específica de Domínio (DSL) minimalista como representação intermédia de base. Ao contrário das abordagens padrão que alucinam respostas diretamente, o TwD força o modelo a esboçar o seu modelo mental em código executável, produzindo provas visuais determinísticas para auto-verificação. Para validar isto, apresentamos o VisAlg, um benchmark de álgebra visual. Experiências demonstram que o TwD funciona como um suporte cognitivo superior. O nosso trabalho estabelece um sistema de ciclo fechado onde a geração visual atua não como uma saída criativa, mas como um verificador lógico, oferecendo um caminho generalizável para o raciocínio visual.
A obtenção de uma escala eficaz no momento do teste requer que os modelos se envolvam na **Exploração em Contexto** – a capacidade intrínseca de gerar, verificar e refinar múltiplas hipóteses de raciocínio dentro de um único contexto contínuo. Fundamentada na teoria da **Cobertura de Estados**, nossa análise identifica um gargalo crítico para o desenvolvimento dessa capacidade: embora uma cobertura mais ampla de estados exija trajetórias de raciocínio mais longas, a probabilidade de amostrar tais sequências decai exponencialmente durante a geração autoregressiva, um fenômeno que denominamos de **"Armadilha da Exploração Superficial"**. Para superar essa lacuna, propomos a **Exploração com Incentivo de Comprimento** (\method). Esta receita simples, porém eficaz, incentiva explicitamente os modelos a explorarem mais por meio de uma recompensa baseada no comprimento, acoplada a uma penalidade por redundância, maximizando assim a cobertura de estados de maneira bifásica. Experimentos abrangentes com diferentes modelos (Qwen3, Llama) demonstram que o \method incentiva efetivamente a exploração em contexto. Como resultado, nosso método alcança uma melhoria média de 4,4% em tarefas do domínio interno e um ganho de 2,7% em benchmarks de domínio externo.
Apesar da escalada sustentada na capacidade dos modelos e na aquisição de dados, os modelos Visão-Linguagem-Ação (VLA) permanecem frágeis em tarefas de manipulação dinâmicas e ricas em contato, onde pequenos desvios de execução podem se acumular e resultar em falhas. Embora o aprendizado por reforço (RL) ofereça um caminho fundamentado para a robustez, o RL *on-policy* no mundo físico é limitado pelo risco de segurança, custo de hardware e necessidade de reconfiguração do ambiente. Para preencher esta lacuna, apresentamos o RISE, uma estrutura escalável de aprendizado por reforço robótico via imaginação. Em seu núcleo está um Modelo de Mundo Composicional que (i) prevê o futuro multi-visão por meio de um modelo de dinâmica controlável e (ii) avalia resultados imaginados com um modelo de valor de progresso, produzindo vantagens informativas para o aprimoramento da política. Esse projeto composicional permite que o estado e o valor sejam adaptados por arquiteturas e objetivos distintos, porém mais adequados. Esses componentes são integrados em um pipeline de autoatualização em circuito fechado que gera continuamente rollouts imaginários, estima vantagens e atualiza a política no espaço imaginário sem interação física custosa. Em três tarefas desafiadoras do mundo real, o RISE produz uma melhoria significativa em relação ao estado da arte, com um aumento de desempenho absoluto superior a +35% na classificação dinâmica de tijolos, +45% no empacotamento de mochila e +35% no fechamento de caixa, respectivamente.
As ilusões visuais tradicionalmente baseiam-se em manipulações espaciais, como a consistência multi-visão. Neste trabalho, introduzimos as Ilusões Semânticas Progressivas, uma nova tarefa de desenho vetorial na qual um único esboço sofre uma transformação semântica dramática através da adição sequencial de traços. Apresentamos o Stroke of Surprise, um framework generativo que otimiza traços vetoriais para satisfazer interpretações semânticas distintas em diferentes fases do desenho. O principal desafio reside na "restrição dupla": os traços iniciais do prefixo devem formar um objeto coerente (por exemplo, um pato) enquanto servem simultaneamente como base estrutural para um segundo conceito (por exemplo, uma ovelha) após a adição de traços delta. Para resolver isto, propomos um framework de otimização conjunta consciente da sequência, orientado por um mecanismo duplo de Score Distillation Sampling (SDS). Diferente de abordagens sequenciais que congelam o estado inicial, o nosso método ajusta dinamicamente os traços do prefixo para descobrir um "subespaço estrutural comum" válido para ambos os alvos. Adicionalmente, introduzimos uma nova Perda de Sobreposição que impõe complementaridade espacial, garantindo integração estrutural em vez de oclusão. Experiências extensivas demonstram que o nosso método supera significativamente os baseline state-of-the-art em reconhecibilidade e força de ilusão, expandindo com sucesso os anagramas visuais da dimensão espacial para a temporal. Página do projeto: https://stroke-of-surprise.github.io/
A manipulação robótica de longo horizonte com alta confiabilidade tradicionalmente dependia de dados e poder computacional em larga escala para compreender dinâmicas complexas do mundo real. No entanto, identificamos que o principal gargalo para a robustez no mundo real não é apenas a escala de recursos, mas a mudança distribucional entre a distribuição de demonstrações humanas, o viés indutivo aprendido pela política e a distribuição de execução em tempo de teste — uma inconsistência sistemática que causa erros compostos em tarefas multiestágio. Para mitigar essas inconsistências, propomos χ₀, uma estrutura eficiente em recursos com módulos eficazes designados para alcançar robustez em nível de produção na manipulação robótica. Nossa abordagem é construída sobre três pilares técnicos: (i) Aritmética de Modelos, uma estratégia de fusão no espaço de pesos que absorve eficientemente distribuições diversas de diferentes demonstrações, variando desde aparência de objetos até variações de estado; (ii) Vantagem por Estágio, um estimador de vantagem consciente do estágio que fornece sinais de progresso densos e estáveis, superando a instabilidade numérica de abordagens anteriores não segmentadas por estágios; e (iii) Alinhamento Treino-Implantação, que preenche a lacuna distribucional por meio de aumento espaço-temporal, correções heurísticas do tipo DAgger e suavização temporal por blocos. O χ₀ permite que dois conjuntos de robôs de duplo braço orchestrem colaborativamente a manipulação de peças de vestuário de longo horizonte, abrangendo tarefas desde alisar, dobrar, até pendurar diferentes roupas. Nosso método exibe autonomia de alta confiabilidade; conseguimos executar o sistema a partir de um estado inicial arbitrário por 24 horas consecutivas sem interrupção. Experimentos validam que o χ₀ supera o estado da arte π₀.₅ em taxa de sucesso em quase 250%, utilizando apenas 20 horas de dados e 8 GPUs A100. Código, dados e modelos serão liberados para facilitar a comunidade.
As demonstrações humanas oferecem uma rica diversidade ambiental e escalam naturalmente, tornando-se uma alternativa atrativa à teleoperação robótica. Embora este paradigma tenha avançado a manipulação com braços robóticos, seu potencial para o problema mais desafiador e com maior necessidade de dados da loco-manipulação de humanoides permanece amplamente inexplorado. Apresentamos o EgoHumanoid, o primeiro framework para co-treinar uma política visão-linguagem-ação utilizando abundantes demonstrações humanas egocêntricas juntamente com uma quantidade limitada de dados robóticos, permitindo que humanoides realizem loco-manipulação em diversos ambientes do mundo real. Para preencher a lacuna de corporificação entre humanos e robôs, incluindo discrepâncias na morfologia física e no ponto de vista, introduzimos um pipeline de alinhamento sistemático que abrange desde o design de hardware até o processamento de dados. Um sistema portátil para coleta escalável de dados humanos é desenvolvido, e estabelecemos protocolos de coleta práticos para melhorar a transferibilidade. No centro do nosso pipeline de alinhamento humano-humanoide estão dois componentes-chave. O alinhamento de visão reduz as discrepâncias de domínio visual causadas pela altura da câmera e variação de perspectiva. O alinhamento de ação mapeia os movimentos humanos para um espaço de ação unificado e cinematicamente viável para o controle do humanoide. Extensos experimentos no mundo real demonstram que a incorporação de dados egocêntricos livres de robôs supera significativamente as linhas de base apenas robóticas em 51%, particularmente em ambientes não vistos. Nossa análise revela ainda quais comportamentos são transferidos de forma eficaz e o potencial para escalar dados humanos.
Os Modelos de Linguagem de Grande Porte por Difusão (dLLMs) representam um novo paradigma além da modelagem autoregressiva, oferecendo desempenho competitivo enquanto permitem naturalmente um processo de decodificação flexível. Especificamente, os dLLMs podem gerar *tokens* em posições arbitrárias em paralelo, dotando-os de um potencial significativo para escalonamento paralelo em tempo de teste, o que era anteriormente limitado pela severa ineficiência da modelagem autoregressiva. Neste trabalho, introduzimos o dVoting, uma técnica de votação rápida que aumenta a capacidade de raciocínio sem treinamento, com apenas uma sobrecarga computacional adicional aceitável. O dVoting é motivado pela observação de que, em múltiplas amostras para o mesmo *prompt*, as previsões de *tokens* permanecem amplamente consistentes, enquanto o desempenho é determinado por um pequeno subconjunto de *tokens* que exibe variabilidade entre amostras. Aproveitando a capacidade de geração em posição arbitrária dos dLLMs, o dVoting realiza refinamento iterativo por amostragem, identificando *tokens* incertos via análise de consistência, regenerando-os por votação e repetindo este processo até a convergência. Avaliações extensivas demonstram que o dVoting melhora consistentemente o desempenho em vários *benchmarks*. Ele alcança ganhos de 6,22%-7,66% no GSM8K, 4,40%-7,20% no MATH500, 3,16%-14,84% no ARC-C e 4,83%-5,74% no MMLU. Nosso código está disponível em https://github.com/fscdc/dVoting.
Apresentamos o Voxtral Realtime, um modelo de reconhecimento automático de fala com streaming nativo que iguala a qualidade de transcrição offline com latência inferior a um segundo. Diferente de abordagens que adaptam modelos offline através de segmentação ou janelas deslizantes, o Voxtral Realtime é treinado de ponta a ponta para streaming, com alinhamento explícito entre os fluxos de áudio e texto. Nossa arquitetura baseia-se na estrutura de Modelagem de Fluxos Atrasados, introduzindo um novo codificador de áudio causal e Ada RMS-Norm para melhor condicionamento de atraso. Escalonamos o pré-treinamento para um conjunto de dados de larga escala abrangendo 13 idiomas. Com um atraso de 480ms, o Voxtral Realtime alcança desempenho equivalente ao do Whisper, o sistema de transcrição offline mais amplamente implantado. Disponibilizamos os pesos do modelo sob a licença Apache 2.0.
Por que a navegação visão-linguagem deve estar vinculada a instruções linguísticas detalhadas e verbosas? Embora tais detalhes facilitem a tomada de decisões, eles contradizem fundamentalmente o objetivo da navegação no mundo real. Idealmente, os agentes devem possuir autonomia para navegar em ambientes desconhecidos guiados apenas por intenções simples e de alto nível. Realizar essa ambição introduz um desafio formidável: a Navegação Além do Campo Visual (BVN), onde os agentes devem localizar alvos distantes e não vistos sem orientação densa e passo a passo. Os métodos existentes baseados em modelos de linguagem grande (LLM), embora sejam habilidosos em seguir instruções densas, frequentemente sofrem de comportamentos míopes devido à sua dependência de supervisão de curto prazo. No entanto, simplesmente estender o horizonte de supervisão desestabiliza o treinamento de LLMs. Neste trabalho, identificamos que os modelos de geração de vídeo inerentemente se beneficiam da supervisão de longo prazo para se alinhar com instruções linguísticas, tornando-os singularmente adequados para tarefas de BVN. Capitalizando essa percepção, propomos introduzir o modelo de geração de vídeo neste campo pela primeira vez. No entanto, a latência proibitiva para gerar vídeos com duração de dezenas de segundos torna a implantação no mundo real impraticável. Para preencher essa lacuna, propomos o SparseVideoNav, alcançando inferência de trajetória em menos de um segundo guiada por um futuro esparso gerado abrangendo um horizonte de 20 segundos. Isso resulta em uma notável aceleração de 27x em comparação com a contraparte não otimizada. Experimentos extensivos de mundo real *zero-shot* demonstram que o SparseVideoNav alcança 2,5x a taxa de sucesso dos melhores métodos baseados em LLM em tarefas de BVN e marca a primeira realização de tal capacidade em cenas noturnas desafiadoras.
À medida que o desenvolvimento de Grandes Modelos (LMs) avança rapidamente, sua segurança também é uma prioridade. No fluxo de trabalho de segurança atual dos Grandes Modelos de Linguagem (LLMs) e dos Grandes Modelos de Linguagem Multimodal (MLLMs), a avaliação, o diagnóstico e o alinhamento de segurança são frequentemente tratados por ferramentas separadas. Especificamente, a avaliação de segurança só consegue localizar riscos comportamentais externos, mas não consegue identificar as causas-raiz internas. Entretanto, o diagnóstico de segurança frequentemente se afasta de cenários de risco concretos e permanece no nível explicativo. Dessa forma, o alinhamento de segurança carece de explicações dedicadas sobre as mudanças nos mecanismos internos, potencialmente degradando as capacidades gerais. Para abordar sistematicamente essas questões, propomos um projeto de código aberto, denominado DeepSight, para praticar um novo paradigma integrado de avaliação-diagnóstico de segurança. O DeepSight é um projeto de avaliação de segurança de modelos de larga escala de baixo custo, reproduzível, eficiente e altamente escalável, constituído por um kit de ferramentas de avaliação DeepSafe e um kit de ferramentas de diagnóstico DeepScan. Ao unificar protocolos de tarefa e dados, construímos uma conexão entre as duas etapas e transformamos a avaliação de segurança de uma visão de caixa-preta para uma de caixa-branca. Além disso, o DeepSight é o primeiro kit de ferramentas de código aberto que suporta a avaliação de riscos de IA de fronteira e a avaliação e diagnóstico conjuntos de segurança.
A compreensão de produtos no comércio eletrónico exige, por natureza, uma forte capacidade de compreensão multimodal a partir de texto, imagens e atributos estruturados. Os Modelos de Visão e Linguagem (VLMs) de propósito geral permitem uma modelação latente multimodal generalizável, no entanto, não existe uma estratégia documentada e conhecida para os adaptar à natureza centrada em atributos, multi-imagem e ruidosa dos dados de e-commerce, sem sacrificar o desempenho geral. Neste trabalho, demonstramos através de um estudo experimental em larga escala como a adaptação direcionada de VLMs gerais pode melhorar substancialmente o desempenho no domínio do e-commerce, preservando ao mesmo tempo capacidades multimodais abrangentes. Adicionalmente, propomos um novo e extenso conjunto de avaliação que abrange a compreensão profunda de produtos, o seguimento estrito de instruções e a extração dinâmica de atributos.
Apresentamos o Gaia2, um benchmark para avaliação de agentes de modelos de linguagem grande em ambientes realistas e assíncronos. Diferentemente de avaliações estáticas ou síncronas anteriores, o Gaia2 introduz cenários onde os ambientes evoluem independentemente das ações do agente, exigindo que os agentes operem sob restrições temporais, adaptem-se a eventos dinâmicos e ruidosos, resolvam ambiguidades e colaborem com outros agentes. Cada cenário é emparelhado com um verificador de ação de escrita, permitindo uma avaliação refinada a nível de ação e tornando o Gaia2 diretamente utilizável para aprendizagem por reforço a partir de recompensas verificáveis. Nossa avaliação dos modelos proprietários e de código aberto mais avançados mostra que nenhum modelo domina todas as capacidades: o GPT-5 (high) atinge a pontuação geral mais forte de 42% pass@1, mas falha em tarefas sensíveis ao tempo; o Claude-4 Sonnet troca precisão e velocidade por custo; o Kimi-K2 lidera entre os modelos de código aberto com 21% pass@1. Esses resultados destacam trade-offs fundamentais entre raciocínio, eficiência, robustez e expõem desafios para fechar a lacuna "sim2real". O Gaia2 é construído em um ambiente de consumo com a plataforma de código aberto Agents Research Environments e projetado para ser facilmente estendido. Ao lançar o Gaia2 juntamente com a estrutura fundamental ARE, visamos fornecer à comunidade uma infraestrutura flexível para desenvolver, comparar e treinar a próxima geração de sistemas de agentes práticos.
O cenário da geração de vídeos por IA está passando por uma mudança pivotal: a transição da geração geral - que depende de extensa engenharia de prompts e seleção manual ("cherry-picking") - para a geração de granularidade fina e controlável, com pós-processamento de alta fidelidade. No cinema profissional assistido por IA, é crucial realizar modificações precisas e direcionadas. Uma pedra angular dessa transição é a inserção de instâncias em vídeo, que requer a inserção de uma instância específica em uma filmagem existente, mantendo a integridade da cena. Diferente da edição de vídeo tradicional, essa tarefa exige vários requisitos: posicionamento espaço-temporal preciso, interação com a cena fisicamente consistente e a preservação fiel da dinâmica original - tudo alcançado com esforço mínimo do usuário. Neste artigo, propomos o PISCO, um modelo de difusão de vídeo para inserção precisa de instâncias com controle arbitrário de *keyframes* esparsos. O PISCO permite que os usuários especifiquem um único *keyframe*, *keyframes* de início e fim, ou *keyframes* esparsos em *timestamps* arbitrários, propagando automaticamente a aparência, o movimento e a interação do objeto. Para abordar a severa mudança de distribuição induzida pelo condicionamento esparso em modelos de difusão de vídeo pré-treinados, introduzimos a Orientação de Informação Variável para um condicionamento robusto e o Mascaramento Temporal de Preservação de Distribuição para estabilizar a geração temporal, juntamente com um condicionamento consciente da geometria para uma adaptação realista da cena. Além disso, construímos o PISCO-Bench, um *benchmark* com anotações de instâncias verificadas e vídeos de fundo limpos pareados, e avaliamos o desempenho usando métricas perceptuais baseadas em referência e livres de referência. Experimentos demonstram que o PISCO supera consistentemente as *baselines* fortes de *inpainting* e edição de vídeo sob controle esparso, e exibe melhorias de desempenho claras e monotônicas à medida que sinais de controle adicionais são fornecidos. Página do projeto: xiangbogaobarry.github.io/PISCO.
O Reforço de Aprendizagem com Recompensas Verificáveis (RLVR), particularmente o GRPO, tornou-se o padrão para eliciar o raciocínio em LLMs. No entanto, a sua eficiência na exploração e adaptação à dificuldade permanece um desafio em aberto. Neste trabalho, argumentamos que estes gargalos resultam de uma simetria de vantagem implícita inerente à Estimativa de Vantagem Relativa de Grupo (GRAE). Esta simetria induz duas limitações críticas: (i) ao nível do grupo, a simetria estrita nos pesos entre trajetórias corretas e incorretas deixa inalterados os *logits* de ações não amostradas, prejudicando assim a exploração de novas soluções corretas; (ii) ao nível da amostra, o algoritmo prioriza implicitamente amostras de dificuldade média, permanecendo agnóstico em relação às demandas não estacionárias do foco na dificuldade. Através de experiências controladas, revelamos que esta propriedade simétrica é subótima, produzindo duas perspetivas fundamentais: (i) a supressão assimétrica das vantagens das trajetórias corretas incentiva a exploração essencial; (ii) a eficiência de aprendizagem é maximizada por uma transição semelhante a um currículo, priorizando inicialmente amostras mais simples antes de mudar gradualmente para as complexas. Motivados por estas descobertas, propomos a GRAE Assimétrica (A-GRAE), que modula dinamicamente os incentivos à exploração e o foco na dificuldade das amostras. Experiências em sete *benchmarks* demonstram que a A-GRAE melhora consistentemente o GRPO e as suas variantes tanto em LLMs como em MLLMs.
Trabalhos recentes exploram o raciocínio latente para melhorar a eficiência do raciocínio, substituindo trajetórias explícitas de raciocínio por representações contínuas em um espaço latente, embora sua eficácia varie conforme os contextos. A análise da dinâmica da confiança do modelo sob raciocínio latente revela que trajetórias de pensamento que terminam em respostas incorretas contêm menos etapas de baixa confiança do que aquelas que terminam em respostas corretas. Paralelamente, sugerimos que *embeddings* suaves agregados por múltiplas alternativas de pensamento de baixa confiança podem introduzir e propagar ruído, levando a uma alta confiança em trajetórias de raciocínio não confiáveis. Motivados por essas observações, é proposto o ThinkRouter, um mecanismo de roteamento consciente da confiança durante a inferência, para evitar alta confiança e ruído, visando um raciocínio eficiente. O ThinkRouter direciona o pensamento para o espaço discreto de *tokens* quando a confiança do modelo é baixa, e para o espaço latente caso contrário. Experimentos extensos em benchmarks de raciocínio STEM e codificação, abrangendo diversos modelos de raciocínio de grande porte, demonstram que o ThinkRouter supera as linhas de base de CoT explícito, roteamento aleatório e raciocínio latente em termos de precisão, alcançando uma melhoria média de 19,70 pontos em Pass@1, enquanto reduz o comprimento da geração em até 15,55%. Uma análise abrangente adicional revela que o ThinkRouter pode calibrar erros decorrentes do CoT explícito e do raciocínio latente, e acelera a geração do *token* de fim do pensamento ao reduzir globalmente a confiança do modelo.
Os modelos de linguagem de grande porte baseados em difusão (DLLMs) têm o potencial de permitir geração rápida de texto através da decodificação paralela de múltiplos tokens. No entanto, na prática, sua eficiência inferencial é limitada pela necessidade de muitas etapas de refinamento, enquanto a redução agressiva do número de etapas leva a uma degradação substancial na qualidade da geração. Para mitigar isso, propomos uma estrutura de autodestilação de trajetória que melhora a decodificação com poucas etapas através da destilação das próprias trajetórias generativas do modelo. Incorporamos a Otimização Discriminativa Direta (DDO), um objetivo de divergência reversa de Kullback-Leibler que promove uma destilação com busca de modos e incentiva o modelo estudante a concentrar-se nos modos de alta probabilidade do modelo professor. Em diversos benchmarks, nossa abordagem supera consistentemente linhas de base fortes com poucas etapas e o treinamento padrão sob orçamentos restritos de etapas. Embora a decodificação com todas as etapas permaneça superior, reduzimos substancialmente a diferença, estabelecendo uma base sólida para DLLMs práticos com poucas etapas. O código-fonte está disponível em https://github.com/Tyrion58/T3D.
As amplitudes de espalhamento de n glúons em nível de árvore com helicidade única negativa são reexaminadas. Frequentemente presumidas como nulas, demonstra-se aqui que elas não se anulam para certas configurações "semicolineares" existentes no espaço de Klein ou para momentos complexificados. Derivamos uma expressão de forma fechada, constante por partes, para o decaimento de um glúon de helicidade única negativa em n-1 glúons de helicidade positiva em função de seus momentos. Esta fórmula satisfaz de forma não trivial múltiplas condições de consistência, incluindo o teorema de soft de Weinberg.
A memória de longo prazo permite que agentes de modelos de linguagem grande lidem com tarefas complexas por meio de interações históricas. No entanto, as estruturas existentes enfrentam um dilema fundamental entre comprimir informações redundantes de forma eficiente e manter uma recuperação precisa para tarefas subsequentes. Para preencher essa lacuna, propomos o MemFly, uma estrutura baseada nos princípios do *information bottleneck* que facilita a evolução da memória em tempo real para LLMs. Nossa abordagem minimiza a entropia de compressão enquanto maximiza a entropia de relevância por meio de um otimizador *gradient-free*, construindo uma estrutura de memória estratificada para armazenamento eficiente. Para aproveitar plenamente o MemFly, desenvolvemos um mecanismo de recuperação híbrido que integra perfeitamente vias semânticas, simbólicas e topológicas, incorporando refinamento iterativo para lidar com consultas complexas de múltiplos saltos. Experimentos abrangentes demonstram que o MemFly supera substancialmente os *baselines* state-of-the-art em coerência de memória, fidelidade de resposta e precisão.
A evolução de grandes modelos de linguagem (LLMs) para aplicações com contextos ultra-longos enfrenta desafios impostos pelos elevados custos computacionais e de memória da arquitetura Transformer. Embora os mecanismos de atenção esparsa e linear existentes tentem mitigar esses problemas, eles geralmente envolvem um compromisso entre eficiência de memória e desempenho do modelo. Este artigo apresenta o MiniCPM-SALA, uma arquitetura híbrida de 9B de parâmetros que integra a modelagem de contexto longo de alta fidelidade da atenção esparsa (InfLLM-V2) com a eficiência global da atenção linear (Lightning Attention). Ao empregar um algoritmo de seleção de camadas para integrar esses mecanismos numa proporção de 1:3 e utilizar uma codificação posicional híbrida (HyPE), o modelo mantém a eficiência e o desempenho em tarefas de contexto longo. Além disso, introduzimos uma estrutura de treino contínuo de baixo custo que transforma modelos pré-treinados baseados em Transformer em modelos híbridos, reduzindo os custos de treino em aproximadamente 75% em comparação com o treino a partir do zero. Experimentos extensivos mostram que o MiniCPM-SALA mantém capacidades gerais comparáveis aos modelos de atenção completa, ao mesmo tempo que oferece uma eficiência melhorada. Num único GPU NVIDIA A6000D, o modelo atinge até 3,5x a velocidade de inferência do modelo de atenção completa no comprimento de sequência de 256K *tokens* e suporta contextos de até 1M de *tokens*, uma escala na qual os modelos tradicionais de 8B com atenção completa falham devido a restrições de memória.
A aprendizagem de mundo aberto enquadra a inteligência como emergente da interação contínua com um espaço em constante expansão de ambientes. Embora avanços recentes tenham utilizado modelos de base (foundation models) para gerar ambientes diversos de forma programática, essas abordagens frequentemente focam na descoberta de comportamentos isolados em vez de orquestrar uma progressão sustentada. Em mundos abertos complexos, o grande espaço combinatório de desafios possíveis dificulta que os agentes descubram sequências de experiências que permaneçam consistentemente aprendíveis. Para resolver isso, propomos o Dreaming in Code (DiCode), uma estrutura na qual modelos de base sintetizam código executável de ambiente para estruturar (scaffold) a aprendizagem em direção a uma competência crescente. No DiCode, o "sonhar" assume a forma de materializar variações do mundo a nível de código. Instanciamos o DiCode no Craftax, um benchmark desafiador de mundo aberto caracterizado por mecânicas ricas e progressão de longo horizonte. Empiricamente, o DiCode permite que os agentes adquiram habilidades de longo horizonte, alcançando uma melhoria de 16% no retorno médio em relação à linha de base mais forte e sucesso não nulo em tarefas de combate do final do jogo, onde métodos anteriores falham. Nossos resultados sugerem que o design de ambientes a nível de código fornece um mecanismo prático para o controle curricular, permitindo a construção de ambientes intermediários que preenchem lacunas de competência em mundos abertos. A página do projeto e o código-fonte estão disponíveis em https://konstantinosmitsides.github.io/dreaming-in-code e https://github.com/konstantinosmitsides/dreaming-in-code.
O pré-treinamento de grandes modelos de linguagem (LLMs) geralmente requer clusters centralizados com milhares de GPUs de alta memória (por exemplo, H100/A100). Métodos recentes de treinamento descentralizado reduzem a sobrecarga de comunicação empregando otimização federada; no entanto, eles ainda precisam treinar o modelo inteiro em cada nó, permanecendo limitados pelas restrições de memória da GPU. Neste trabalho, propomos o SPES (SParse Expert Synchronization), um framework descentralizado e eficiente em memória para pré-treinar LLMs do tipo mistura de especialistas (MoE). O SPES treina apenas um subconjunto de especialistas por nó, reduzindo substancialmente a pegada de memória. Cada nó atualiza seus especialistas locais e periodicamente sincroniza com outros nós, eliminando a transmissão de parâmetros completos enquanto garante um compartilhamento eficiente de conhecimento. Para acelerar a convergência, introduzimos uma estratégia de aquecimento por fusão de especialistas, na qual os especialistas trocam conhecimento no início do treinamento para estabelecer rapidamente capacidades fundamentais. Com o SPES, treinamos um LLM MoE de 2B parâmetros usando 16 GPUs independentes de 48GB em conexões de internet, o que alcança um desempenho competitivo com LLMs treinados centralmente sob orçamentos computacionais semelhantes. Demonstramos ainda a escalabilidade treinando um modelo de 7B do zero e um modelo de 9B reciclado a partir de um *checkpoint* denso, ambos equiparando-se a *baselines* centralizadas anteriores. Nosso código está disponível em https://github.com/zjr2000/SPES.
A implantação de robôs em larga escala exige robustez para lidar com a longa cauda de situações do dia a dia. As inúmeras variações na disposição da cena, geometria dos objetos e especificações da tarefa que caracterizam ambientes reais são vastas e sub-representadas nos benchmarks existentes para robôs. Medir este nível de generalização requer uma infraestrutura com uma escala e diversidade que a avaliação física por si só não pode fornecer. Apresentamos o MolmoSpaces, um ecossistema totalmente aberto para suportar a avaliação em larga escala de políticas de robôs. O MolmoSpaces consiste em mais de 230 mil ambientes internos diversos, variando de cenas domésticas artesanais a casas com vários cômodos geradas proceduralmente, povoadas com 130 mil ativos de objetos ricamente anotados, incluindo 48 mil objetos manipuláveis com 42 milhões de pegas estáveis. Crucialmente, estes ambientes são independentes do simulador, suportando opções populares como MuJoCo, Isaac e ManiSkill. O ecossistema suporta todo o espectro de tarefas corporificadas: manipulação estática e móvel, navegação e tarefas de longo horizonte em múltiplos cômodos que exigem percepção, planeamento e interação coordenados em ambientes internos inteiros. Também concebemos o MolmoSpaces-Bench, um conjunto de benchmarks de 8 tarefas nas quais os robôs interagem com as nossas diversas cenas e objetos ricamente anotados. As nossas experiências mostram que o MolmoSpaces-Bench exibe uma forte correlação sim-para-real (R = 0,96, ρ = 0,98), confirmam que políticas zero-shot mais recentes e robustas superam versões anteriores nos nossos benchmarks e identificam sensibilidades-chave à formulação de instruções, posições articulares iniciais e oclusão da câmara. Através do MolmoSpaces e dos seus ativos e ferramentas de código aberto, fornecemos uma base para a geração escalável de dados, o treino de políticas e a criação de benchmarks para a investigação em aprendizagem de robôs.
Documentos empresariais, como formulários e relatórios, incorporam informações críticas para aplicações subsequentes, como arquivamento de dados, fluxos de trabalho automatizados e análise. Embora os Modelos de Linguagem Visual (VLMs) generalistas tenham bom desempenho em benchmarks estabelecidos de compreensão de documentos, sua capacidade de realizar extração estruturada holística e granular em diversos tipos de documentos e esquemas flexíveis não é bem estudada. Os conjuntos de dados existentes para Extração de Entidades-Chave (KEE), Extração de Relações (RE) e Resposta a Perguntas Visuais (VQA) são limitados por ontologias de entidades restritas, consultas simples ou tipos de documentos homogéneos, frequentemente negligenciando a necessidade de extração estruturada e adaptável. Para colmatar estas lacunas, introduzimos o ExStrucTiny, um novo conjunto de dados de referência para Extração de Informação (EI) estruturada a partir de imagens de documentos, unificando aspetos de KEE, RE e VQA. Construído através de um *pipeline* inovador que combina amostras manuais e sintéticas validadas por humanos, o ExStrucTiny abrange tipos de documentos e cenários de extração mais variados. Analisamos VLMs abertos e fechados neste benchmark, destacando desafios como adaptação de esquema, subespecificação de consultas e localização de respostas. Esperamos que o nosso trabalho forneça uma base para melhorar modelos generalistas para EI estruturada em documentos.
Os modelos de linguagem grandes multimodais (MLLMs) são cada vez mais utilizados em tarefas do mundo real que envolvem raciocínio multi-etapas e geração de texto longo, onde a confiabilidade exige que as saídas do modelo sejam fundamentadas em fontes de entrada heterogêneas e que afirmações factuais individuais sejam verificadas. No entanto, os benchmarks de fundamentação multimodal e os métodos de avaliação existentes concentram-se em cenários simplificados baseados em observação ou em modalidades limitadas, falhando em avaliar a atribuição no raciocínio multimodal complexo. Apresentamos o MuRGAt (Raciocínio Multimodal com Atribuição Fundamentada), um benchmark para avaliar a atribuição multimodal a nível factual em contextos que exigem raciocínio para além da observação direta. Dadas entradas que abrangem vídeo, áudio e outras modalidades, o MuRGAt exige que os modelos gerem respostas com raciocínio explícito e citações precisas, onde cada citação especifica tanto a modalidade quanto os segmentos temporais. Para permitir uma avaliação confiável, introduzimos um framework de avaliação automática que se correlaciona fortemente com os julgamentos humanos. A avaliação comparativa com pontuações humanas e automatizadas revela que mesmo MLLMs robustos frequentemente alucinam citações apesar de um raciocínio correto. Além disso, observamos um trade-off fundamental: aumentar a profundidade do raciocínio ou impor uma fundamentação estruturada frequentemente degrada a precisão, destacando uma lacuna significativa entre o raciocínio interno e a atribuição verificável.
Os grandes modelos de linguagem (LLMs) demonstraram capacidades excepcionais de raciocínio, e os paradigmas de coevolução têm mostrado resultados promissores em domínios como código e matemática. No entanto, em tarefas de raciocínio científico, esses modelos permanecem frágeis devido à avaliação não confiável de soluções e à diversidade limitada nas estratégias de verificação. Neste trabalho, propomos o Sci-CoE, uma estrutura científica de coevolução em dois estágios que permite aos modelos evoluírem como solucionadores e verificadores por meio de uma transição da supervisão esparsa para a aprendizagem não supervisionada. No primeiro estágio, o modelo utiliza um pequeno conjunto de dados anotados para estabelecer âncoras fundamentais de julgamento de correção para o Verificador. No segundo estágio, introduzimos um mecanismo de recompensa geométrica que considera conjuntamente consenso, confiabilidade e diversidade, impulsionando a autoiteração em larga escala sobre dados não rotulados. Experimentos em várias referências científicas gerais demonstram que o Sci-CoE aprimora as capacidades de raciocínio complexo e exibe forte escalabilidade, facilitando a construção de sistemas de avaliação mais robustos e diversos. Os códigos estão disponíveis em https://github.com/InternScience/Sci-CoE.
O alinhamento personalizado de modelos de linguagem de grande escala visa adaptar as respostas às preferências individuais dos utilizadores, tipicamente através de aprendizagem por reforço. Um desafio fundamental é obter sinais de recompensa precisos e específicos do utilizador em cenários de resposta aberta. Os modelos de recompensa personalizados existentes enfrentam duas limitações persistentes: (1) simplificam excessivamente preferências diversificadas e específicas do cenário num conjunto pequeno e fixo de princípios de avaliação, e (2) lutam com a generalização para novos utilizadores com feedback limitado. Para tal, propomos o P-GenRM, o primeiro Modelo de Recompensa Generativo Personalizado com escalagem baseada no utilizador em tempo de teste. O P-GenRM transforma sinais de preferência em cadeias de avaliação estruturadas que derivam personas adaptativas e grelhas de pontuação em vários cenários. Agrupa ainda os utilizadores em Protótipos de Utilizador e introduz um mecanismo de escalagem de granularidade dupla: ao nível individual, escala e agrega adaptativamente o esquema de pontuação de cada utilizador; ao nível do protótipo, incorpora preferências de utilizadores similares. Este projeto mitiga o ruído nas preferências inferidas e melhora a generalização para utilizadores não vistos através da transferência baseada em protótipos. Resultados empíricos mostram que o P-GenRM alcança resultados state-of-the-art em benchmarks amplamente utilizados para modelos de recompensa personalizados, com uma melhoria média de 2,31%, e demonstra uma forte generalização num conjunto de dados fora da distribuição. Notavelmente, a Escalagem Baseada no Utilizador em Tempo de Teste proporciona um aumento adicional de 3%, demonstrando um alinhamento personalizado mais forte com escalabilidade em tempo de teste.
A compreensão metafórica em imagens continua a ser um desafio crítico para os sistemas de IA atuais. Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) se destaquem na Resposta a Perguntas Visuais (VQA) básica, eles lutam consistentemente para compreender as nuances culturais, emocionais e as implicações contextuais incorporadas no conteúdo visual. Esta dificuldade decorre da exigência da tarefa por um raciocínio multi-etapa sofisticado, contexto cultural e capacidades de Teoria da Mente (ToM), das quais os modelos atuais carecem. Para preencher esta lacuna, propomos o MetaphorStar, o primeiro quadro de aprendizagem por reforço visual de ponta a ponta para tarefas de implicação em imagens. O nosso quadro inclui três componentes principais: o conjunto de dados de granularidade fina TFQ-Data, o método de aprendizagem por reforço visual TFQ-GRPO e o benchmark bem estruturado TFQ-Bench. A nossa família MetaphorStar, totalmente de código aberto e treinada usando o TFQ-GRPO no TFQ-Data, melhora significativamente o desempenho em uma média de 82,6% nos benchmarks de implicação de imagem. Em comparação com mais de 20 MLLMs mainstream, o MetaphorStar-32B atinge o estado da arte (SOTA) em Perguntas de Escolha Múltipla e Perguntas de Estilo Aberto, superando significativamente o modelo proprietário mais avançado, o Gemini-3.0-pro, em Perguntas de Verdadeiro ou Falso. Crucialmente, as nossas experiências revelam que aprender tarefas de implicação de imagem melhora a capacidade de compreensão geral, especialmente a capacidade de raciocínio visual complexo. Fornecemos ainda uma análise sistemática da escala de parâmetros do modelo, da escala de dados de treino e do impacto de diferentes arquiteturas de modelo e estratégias de treino, demonstrando a ampla aplicabilidade do nosso método. Disponibilizamos publicamente todos os pesos dos modelos, conjuntos de dados e código do método em https://metaphorstar.github.io.
Estudamos agentes aumentados por ferramentas com restrição orçamental, nos quais um modelo de linguagem de grande escala deve resolver tarefas multi-etapa invocando ferramentas externas sob um orçamento monetário rigoroso. Formalizamos este cenário como tomada de decisão sequencial no espaço de contexto com execuções de ferramentas precificadas e estocásticas, tornando o planeamento direto intratável devido aos espaços massivos de estado-ação, alta variância de resultados e custo proibitivo de exploração. Para enfrentar estes desafios, propomos o INTENT, uma estrutura de planeamento em tempo de inferência que aproveita um modelo hierárquico do mundo consciente da intenção para antecipar o uso futuro de ferramentas, custo calibrado para o risco, e orientar decisões online. No StableToolBench com custos aumentados, o INTENT aplica estritamente a viabilidade orçamental rígida enquanto melhora substancialmente o sucesso das tarefas face a linhas de base, e mantém-se robusto sob mudanças dinâmicas de mercado, como alterações de preços de ferramentas e orçamentos variáveis.
O Ajuste de Instrução Visual em Larga Escala (VIT) tornou-se um paradigma fundamental para avançar o desempenho de modelos de visão e linguagem (VLMs) em várias tarefas multimodais. No entanto, o treinamento em conjuntos de dados de grande escala é computacionalmente custoso e ineficiente devido à redundância nos dados, o que motiva a necessidade de seleção de dados multimodais para melhorar a eficiência do treinamento. Os métodos de seleção de dados existentes para VIT exigem either treinamento custoso ou cálculo de gradientes. As alternativas *training-free* frequentemente dependem de modelos ou conjuntos de dados substitutos (*proxy*), representações insensíveis à instrução (*instruction-agnostic*) e similaridade par a par com complexidade quadrática, limitando a escalabilidade e a fidelidade da representação. Neste trabalho, propomos o ScalSelect, um método de seleção de dados multimodais escalável e *training-free*, com complexidade de tempo linear em relação ao número de amostras, eliminando a necessidade de modelos externos ou conjuntos de dados auxiliares. O ScalSelect primeiro constrói representações das amostras extraindo as características visuais mais atendidas pelos *tokens* de instrução no VLM alvo, capturando informações relevantes para a instrução. Em seguida, identifica amostras cujas representações melhor aproximam o subespaço dominante das representações do conjunto de dados completo, permitindo uma pontuação de importância escalável sem comparações par a par. Experimentos extensos em múltiplos VLMs, conjuntos de dados e orçamentos de seleção demonstram que o ScalSelect alcança mais de 97,5% do desempenho do treinamento com o conjunto de dados completo usando apenas 16% dos dados, e até supera o treinamento com todos os dados em algumas configurações. O código está disponível em https://github.com/ChangtiWu/ScalSelect{ScalSelect}.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) é fundamental para o treinamento de modelos modernos de raciocínio, mas os dados de treinamento não divulgados levantam preocupações sobre a contaminação de benchmarks. Diferente dos métodos de pré-treinamento, que otimizam modelos usando probabilidades em nível de token, o RLVR ajusta modelos com base no feedback de recompensa proveniente de trajetórias de raciocínio autogeradas, tornando os métodos convencionais de detecção baseados em verossimilhança menos eficazes. Demonstramos que o RLVR induz uma assinatura comportamental distintiva: prompts encontrados durante o treinamento RLVR resultam em gerações mais rígidas e similares, enquanto prompts não vistos mantêm maior diversidade. Introduzimos o Min-kNN Distance, um detector simples de caixa preta que quantifica esse colapso amostrando múltiplas conclusões para um prompt dado e calculando a média dos k menores distâncias de edição entre vizinhos mais próximos. O Min-kNN Distance não requer acesso ao modelo de referência ou às probabilidades de token. Experimentos com diversos modelos de raciocínio treinados com RLVR mostram que o Min-kNN Distance distingue de forma confiável exemplos vistos durante o RL daqueles não vistos e supera os baselines existentes de inferência de associação e detecção de contaminação por RL.
A navegação incorporada tem sido historicamente fragmentada por arquiteturas específicas para cada tarefa. Apresentamos o ABot-N0, um modelo de base unificado de Visão-Linguagem-Ação (VLA) que alcança uma "Grande Unificação" em 5 tarefas principais: Navegação por Ponto-Alvo, Navegação por Objeto-Alvo, Seguimento de Instruções, Navegação por Ponto de Interesse e Perseguição de Pessoas. O ABot-N0 utiliza uma arquitetura hierárquica "Cérebro-Ação", emparelhando um Cérebro Cognitivo baseado em LLM para raciocínio semântico com um Especialista em Ação baseado em Correspondência de Fluxos para geração de trajetórias contínuas e precisas. Para suportar o aprendizado em larga escala, desenvolvemos o Motor de Dados ABot-N0, que curou 16,9 milhões de trajetórias especializadas e 5,0 milhões de amostras de raciocínio em 7.802 cenas 3D de alta fidelidade (10,7 km²). O ABot-N0 atinge um novo estado da arte em 7 benchmarks, superando significativamente modelos especializados. Além disso, nosso Sistema de Navegação Agente integra um planejador com memória topológica hierárquica, permitindo missões robustas de longo horizonte em ambientes dinâmicos do mundo real.
A geração de stems musicais, a tarefa de produzir clipes de áudio de instrumentos isolados e sincronizados musicalmente, oferece o potencial de maior controle do utilizador e melhor alinhamento com os fluxos de trabalho dos músicos em comparação com os modelos convencionais de texto-para-música. No entanto, as abordagens existentes de geração de stems ou dependem de arquiteturas fixas que produzem um conjunto predefinido de stems em paralelo, ou geram apenas um stem de cada vez, resultando numa inferência lenta, apesar da flexibilidade na combinação de stems. Propomos o Stemphonic, uma estrutura baseada em difusão/fluxo que supera este compromisso e gera um conjunto variável de stems sincronizados numa única passagem de inferência. Durante o treino, tratamos cada stem como um elemento do lote, agrupamos stems sincronizados num lote e aplicamos um latente de ruído partilhado a cada grupo. No momento da inferência, usamos um latente de ruído inicial partilhado e entradas de texto específicas por stem para gerar saídas multi-stem sincronizadas numa única passagem. Expandimos ainda a nossa abordagem para permitir a geração condicional multi-stem numa única passagem e controlos de atividade por stem, capacitando os utilizadores para gerar e orquestrar iterativamente a sobreposição temporal de uma mistura. Avaliámos os nossos resultados em vários conjuntos de avaliação de stems de código aberto e mostrámos que o Stemphonic produz saídas de maior qualidade, enquanto acelera o processo de geração da mistura completa em 25 a 50%. Demonstrações em: https://stemphonic-demo.vercel.app.
O equilíbrio entre interpretabilidade e precisão permanece um desafio central no aprendizado de máquina. Os Modelos Aditivos Generalizados (GAMs) padrão oferecem atribuições de características claras, mas são frequentemente limitados por sua natureza estritamente aditiva, o que pode restringir o desempenho preditivo. A introdução de interações entre características pode aumentar a precisão, mas pode obscurecer as contribuições individuais das características. Para resolver essas questões, propomos os Especialistas Aditivos Neurais (NAEs), uma nova estrutura que equilibra perfeitamente interpretabilidade e precisão. Os NAEs empregam uma estrutura de mistura de especialistas, aprendendo múltiplas redes especializadas por característica, enquanto um mecanismo de portão dinâmico integra informações entre características, relaxando assim as restrições aditivas rígidas. Além disso, propomos técnicas de regularização direcionadas para mitigar a variância entre as previsões dos especialistas, facilitando uma transição suave de um modelo exclusivamente aditivo para um que captura interações complexas de características, mantendo a clareza nas atribuições. Nossa análise teórica e experimentos com dados sintéticos ilustram a flexibilidade do modelo, e avaliações extensas em conjuntos de dados do mundo real confirmam que os NAEs alcançam um equilíbrio ideal entre precisão preditiva e explicações transparentes em nível de característica. O código está disponível em https://github.com/Teddy-XiongGZ/NAE.