Artigos de pesquisa em IA selecionados diariamente com traduções
A edição refinada de expressões faciais tem sido historicamente limitada pela sobreposição semântica intrínseca. Para resolver isso, construímos o conjunto de dados Flex Facial Expression (FFE) com anotações afetivas contínuas e estabelecemos o FFE-Bench para avaliar a confusão estrutural, a precisão da edição, a controlabilidade linear e o equilíbrio entre a edição de expressão e a preservação da identidade. Propomos o PixelSmile, uma arquitetura baseada em difusão que desacopla a semântica da expressão por meio de um treinamento conjunto totalmente simétrico. O PixelSmile combina supervisão de intensidade com aprendizado contrastante para produzir expressões mais fortes e distinguíveis, alcançando um controle linear de expressão preciso e estável através da interpolação latente textual. Experimentos extensivos demonstram que o PixelSmile alcança um desacoplamento superior e uma preservação robusta da identidade, confirmando sua eficácia para edição de expressão contínua, controlável e de granularidade fina, suportando naturalmente a mesclagem suave de expressões.
Apresentamos o Intern-S1-Pro, o primeiro modelo de base multimodal científico com um trilhão de parâmetros. Ao escalar para este tamanho sem precedentes, o modelo oferece um aprimoramento abrangente tanto em domínios gerais quanto científicos. Além de capacidades mais robustas de raciocínio e compreensão de imagem-texto, sua inteligência é ampliada com capacidades avançadas de agente. Simultaneamente, sua expertise científica foi vastamente expandida para dominar mais de 100 tarefas especializadas em campos científicos críticos, incluindo química, materiais, ciências da vida e ciências da terra. Atingir essa escala massiva foi possibilitado pelo suporte robusto de infraestrutura do XTuner e LMDeploy, que facilita um treinamento altamente eficiente de Aprendizado por Reforço (RL) no nível de um trilhão de parâmetros, garantindo ao mesmo tempo uma rigorosa consistência de precisão entre o treinamento e a inferência. Ao integrar perfeitamente esses avanços, o Intern-S1-Pro fortalece ainda mais a fusão da inteligência geral e especializada, funcionando como um Generalista Especializável, demonstrando sua posição no nível superior dos modelos de código aberto para capacidades gerais, ao mesmo tempo que supera modelos proprietários na profundidade de tarefas científicas especializadas.
Neste artigo, revelamos o potencial oculto dos Transformadores de Difusão (DiTs) para melhorar significativamente tarefas generativas. Através de uma análise aprofundada do processo de remoção de ruído, demonstramos que a introdução de um único parâmetro de escala aprendido pode melhorar significativamente o desempenho dos blocos DiT. Com base nessa perceção, propomos o Calibri, uma abordagem eficiente em parâmetros que calibra otimamente os componentes do DiT para elevar a qualidade generativa. O Calibri enquadra a calibração do DiT como um problema de otimização de recompensa de caixa preta, que é resolvido eficientemente usando um algoritmo evolutivo e modifica apenas ~100 parâmetros. Os resultados experimentais revelam que, apesar do seu design leve, o Calibri melhora consistentemente o desempenho em vários modelos de texto para imagem. Notavelmente, o Calibri também reduz os passos de inferência necessários para a geração de imagens, mantendo ao mesmo tempo saídas de alta qualidade.
A restauração de imagens sob degradações do mundo real é crucial para tarefas subsequentes, como condução autónoma e deteção de objetos. No entanto, os modelos de restauração existentes são frequentemente limitados pela escala e distribuição dos seus dados de treino, resultando numa fraca generalização para cenários do mundo real. Recentemente, modelos de edição de imagem em larga escala demonstraram uma forte capacidade de generalização em tarefas de restauração, especialmente no caso de modelos proprietários como o Nano Banana Pro, que conseguem restaurar imagens preservando a consistência. Contudo, alcançar tal desempenho com esses modelos universais de grande escala exige recursos computacionais e de dados substanciais. Para resolver este problema, construímos um conjunto de dados em larga escala que abrange nove tipos comuns de degradação do mundo real e treinámos um modelo de código aberto de última geração para reduzir a diferença em relação às alternativas proprietárias. Além disso, introduzimos o RealIR-Bench, que contém 464 imagens degradadas do mundo real e métricas de avaliação personalizadas focadas na remoção de degradação e preservação da consistência. Experimentos extensivos demonstram que o nosso modelo ocupa a primeira posição entre os métodos de código aberto, alcançando um desempenho de última geração.
Apresentamos o Voxtral TTS, um modelo expressivo e multilíngue de conversão de texto em fala que gera discurso natural a partir de apenas 3 segundos de áudio de referência. O Voxtral TTS adota uma arquitetura híbrida que combina a geração autorregressiva de *tokens* semânticos de fala com *flow-matching* para *tokens* acústicos. Estes *tokens* são codificados e decodificados com o Voxtral Codec, um tokenizador de fala treinado desde o início com um esquema de quantização híbrido VQ-FSQ. Em avaliações humanas conduzidas por falantes nativos, o Voxtral TTS é preferido para clonagem de voz multilíngue devido à sua naturalidade e expressividade, alcançando uma taxa de preferência de 68,4% em comparação com o ElevenLabs Flash v2.5. Disponibilizamos os pesos do modelo sob uma licença CC BY-NC.
A memória de longo prazo é uma pedra angular da inteligência humana. Permitir que a IA processe informações em escala vitalícia continua sendo um objetivo de longa data na área. Devido às restrições das arquiteturas de atenção completa, o comprimento efetivo de contexto dos grandes modelos de linguagem (LLMs) é tipicamente limitado a 1 milhão de tokens. Abordagens existentes, como atenção linear híbrida, estados de memória de tamanho fixo (por exemplo, RNNs) e métodos de armazenamento externo como RAG ou sistemas de agentes, tentam estender esse limite. No entanto, elas frequentemente sofrem com severa degradação de precisão e latência rapidamente crescente à medida que o contexto se expande, incapacidade de modificar dinamicamente o conteúdo da memória ou falta de otimização de ponta a ponta. Esses gargalos impedem cenários complexos como sumarização de grandes corpus, Gêmeos Digitais e raciocínio de agentes com histórico extenso, ao mesmo tempo que limitam a capacidade de memória e retardam a inferência. Apresentamos a Memória de Atenção Esparsa (MSA), uma estrutura de modelo de memória treinável de ponta a ponta, eficiente e massivamente escalável. Por meio de inovações centrais, incluindo atenção esparsa escalável e RoPE por documento, a MSA alcança complexidade linear tanto no treinamento quanto na inferência, mantendo estabilidade excepcional, exibindo menos de 9% de degradação ao escalar de 16K para 100M de tokens. Além disso, a compressão do cache KV, combinada com o Paralelismo de Memória, permite inferência de 100M de tokens em 2x GPUs A800. Também propomos o Entrelaçamento de Memória para facilitar raciocínios complexos de múltiplos saltos entre segmentos de memória dispersos. A MSA supera significativamente LLMs de fronteira, sistemas RAG state-of-the-art e principais agentes de memória em benchmarks de contexto longo. Esses resultados demonstram que, ao desacoplar a capacidade de memória do raciocínio, a MSA fornece uma base escalável para dotar modelos de propósito geral com memória intrínseca em escala vitalícia.
A geração de imagens condicionada por múltiplas referências visuais é crucial para aplicações do mundo real, como composição multiassunto, ilustração narrativa e síntese de novos pontos de vista. No entanto, os modelos atuais sofrem com uma degradação severa de desempenho à medida que o número de referências de entrada aumenta. Identificamos a causa raiz como um gargalo fundamental de dados: os conjuntos de dados existentes são dominados por pares de referência únicos ou escassos e carecem da supervisão estruturada e de contexto longo necessária para aprender dependências densas entre referências. Para resolver isso, introduzimos o MacroData, um conjunto de dados em larga escala com 400 mil amostras, cada uma contendo até 10 imagens de referência, organizadas sistematicamente em quatro dimensões complementares – Customização, Ilustração, Raciocínio Espacial e Dinâmica Temporal – para fornecer uma cobertura abrangente do espaço de geração multi-referência. Reconhecendo a ausência concomitante de protocolos de avaliação padronizados, propomos ainda o MacroBench, um benchmark de 4.000 amostras que avalia a coerência gerativa através de dimensões de tarefa graduadas e escalas de entrada. Experimentos extensos mostram que o ajuste fino (fine-tuning) no MacroData produz melhorias substanciais na geração multi-referência, e estudos de ablação revelam ainda benefícios sinérgicos do co-treinamento cruzado de tarefas e estratégias eficazes para lidar com a complexidade de contexto longo. O conjunto de dados e o benchmark serão disponibilizados publicamente.
O desenvolvimento de software é iterativo, mas os *benchmarks* de codificação com agentes avaliam massivamente soluções únicas contra especificações completas. O código pode passar na suíte de testes, mas tornar-se progressivamente mais difícil de estender. *Benchmarks* iterativos recentes tentam reduzir esta lacuna, mas restringem demasiado as decisões de *design* do agente para medir fielmente como a qualidade do código molda extensões futuras. Apresentamos o SlopCodeBench, um *benchmark* agnóstico à linguagem que compreende 20 problemas e 93 pontos de verificação, no qual os agentes estendem repetidamente as suas próprias soluções anteriores sob especificações em evolução que forçam decisões arquitetónicas sem prescrever a estrutura interna. Acompanhamos dois sinais de qualidade a nível da trajetória: a verbosidade, a fração de código redundante ou duplicado, e a erosão estrutural, a parcela da massa de complexidade concentrada em funções de alta complexidade. Nenhum agente resolve qualquer problema de ponta a ponta em 11 modelos; a taxa mais alta de resolução num ponto de verificação é de 17,2%. A qualidade degrada-se de forma constante: a erosão aumenta em 80% das trajetórias e a verbosidade em 89,8%. Comparado com 48 repositórios Python de código aberto, o código dos agentes é 2,2 vezes mais verboso e visivelmente mais erodido. O acompanhamento de 20 desses repositórios ao longo do tempo mostra que o código humano se mantém estável, enquanto o código dos agentes se deteriora a cada iteração. Um estudo de intervenção por *prompt* mostra que a qualidade inicial pode ser melhorada, mas isso não interrompe a degradação. Estes resultados demonstram que os *benchmarks* baseados na taxa de aprovação subestimam sistematicamente a robustez da extensão e que os agentes atuais carecem da disciplina de *design* que o desenvolvimento iterativo de software exige.
O controlo da geração de vídeo e áudio requer modalidades diversas, desde profundidade e pose até trajetórias de câmara e transformações de áudio. No entanto, as abordagens existentes ou treinam um modelo monolítico único para um conjunto fixo de controlos ou introduzem alterações arquiteturais dispendiosas para cada nova modalidade. Apresentamos o AVControl, uma estrutura leve e extensível construída sobre o LTX-2, um modelo base áudio-visual conjunto, onde cada modalidade de controlo é treinada como um LoRA separado numa tela paralela que fornece o sinal de referência como tokens adicionais nas camadas de atenção, não exigindo alterações arquiteturais para além dos próprios adaptadores LoRA. Demonstramos que simplesmente estender métodos baseados em contexto de imagem para vídeo falha no controlo estrutural, e que a nossa abordagem de tela paralela resolve este problema. No VACE Benchmark, superamos todas as linhas de base avaliadas em geração guiada por profundidade e pose, preenchimento e extensão de vídeo, e mostramos resultados competitivos em controlo de câmara e benchmarks áudio-visuais. A nossa estrutura suporta um conjunto diversificado de modalidades treinadas independentemente: controlos espacialmente alinhados, como profundidade, pose e contornos, trajetória de câmara com parâmetros intrínsecos, controlo de movimento esparso, edição de vídeo e, até onde sabemos, os primeiros controlos áudio-visuais modulares para um modelo de geração conjunta. O nosso método é eficiente em termos computacionais e de dados: cada modalidade requer apenas um pequeno conjunto de dados e converge em algumas centenas a milhares de passos de treino, uma fração do orçamento das alternativas monolíticas. Disponibilizamos publicamente o nosso código e os checkpoints LoRA treinados.
Os Gráficos Vetoriais Escaláveis (SVG) são um formato essencial para ilustração técnica e design digital, oferecendo independência de resolução precisa e editabilidade semântica flexível. Na prática, no entanto, os arquivos vetoriais de origem originais são frequentemente perdidos ou inacessíveis, restando apenas versões rasterizadas "planas" (por exemplo, PNG ou JPEG) que são difíceis de modificar ou dimensionar. A reconstrução manual dessas figuras é um processo proibitivamente intensivo em mão de obra, exigindo conhecimentos especializados para recuperar a intenção geométrica original. Para preencher essa lacuna, propomos o VFIG, uma família de Modelos de Visão e Linguagem treinados para a conversão complexa e de alta fidelidade de figuras para SVG. Embora essa tarefa seja inerentemente orientada por dados, os conjuntos de dados existentes são tipicamente de pequena escala e carecem da complexidade dos diagramas profissionais. Resolvemos isso introduzindo o VFIG-DATA, um conjunto de dados em larga escala com 66K pares de figura-SVG de alta qualidade, curados a partir de uma mistura diversificada de figuras reais de artigos científicos e diagramas gerados proceduralmente. Reconhecendo que os SVGs são compostos por primitivas recorrentes e estruturas locais hierárquicas, introduzimos um currículo de treinamento do geral para o específico (coarse-to-fine) que começa com o ajuste fino supervisionado (SFT) para aprender primitivas atômicas e transita para um refinamento por aprendizagem por reforço (RL) para otimizar a fidelidade global do diagrama, a consistência do layout e os casos extremos topológicos. Finalmente, introduzimos o VFIG-BENCH, um conjunto abrangente de avaliação com métricas novas concebidas para medir a integridade estrutural de figuras complexas. O VFIG atinge um desempenho de ponta entre os modelos de código aberto e apresenta um desempenho equivalente ao GPT-5.2, alcançando uma pontuação VLM-Judge de 0.829 no VFIG-BENCH.
Os métodos atuais de 3D Gaussian Splatting *feed-forward* preveem primitivos alinhados a pixels, resultando num crescimento quadrático do número de primitivos à medida que a resolução aumenta. Isto limita fundamentalmente a sua escalabilidade, tornando intratável a síntese de alta resolução, como 4K. Apresentamos o LGTM (*Less Gaussians, Texture More*), uma estrutura *feed-forward* que supera esta barreira de escalabilidade de resolução. Ao prever primitivos Gaussianos compactos acoplados a texturas por primitivo, o LGTM desacopla a complexidade geométrica da resolução de renderização. Esta abordagem permite a síntese de novas vistas em 4K de alta fidelidade sem otimização por cena, uma capacidade anteriormente inatingível para métodos *feed-forward*, tudo isto utilizando significativamente menos primitivos Gaussianos. Página do projeto: https://yxlao.github.io/lgtm/
O Alinhamento de Representações (REPA) surgiu como uma forma simples de acelerar o treinamento de Diffusion Transformers no espaço latente. Paralelamente, diffusion transformers no espaço de pixels, como os Just Image Transformers (JiT), têm atraído crescente atenção por eliminarem a dependência de um tokenizador pré-treinado e, assim, evitarem o gargalo de reconstrução da difusão latente. Este artigo demonstra que o REPA pode falhar para JiT. O REPA produz FID pior para JiT à medida que o treinamento prossegue e entra em colapso de diversidade em subconjuntos de imagens que estão fortemente agrupados no espaço de representação do codificador semântico pré-treinado no ImageNet. Rastreamos a falha até uma assimetria de informação: a remoção de ruído ocorre no espaço de imagem de alta dimensão, enquanto o alvo semântico é fortemente comprimido, tornando a regressão direta um objetivo de atalho. Propomos o PixelREPA, que transforma o alvo de alinhamento e restringe o alinhamento com um Adaptador de Transformer Mascarado que combina um adaptador de transformer raso com o mascaramento parcial de tokens. O PixelREPA melhora tanto a convergência do treinamento quanto a qualidade final. O PixelREPA reduz o FID de 3,66 para 3,17 no JiT-B/16 e melhora o Inception Score (IS) de 275,1 para 284,6 no ImageNet 256x256, ao mesmo tempo que alcança uma convergência >2 vezes mais rápida. Por fim, o PixelREPA-H/16 alcança FID=1,81 e IS=317,2. Nosso código está disponível em https://github.com/kaist-cvml/PixelREPA.
Os Modelos de Base de Visão (VFMs) tornaram-se a pedra angular da visão computacional moderna, oferecendo representações robustas para uma ampla gama de tarefas. Embora avanços recentes permitam que esses modelos lidem com tamanhos de entrada variáveis durante o treinamento, a inferência normalmente permanece restrita a uma única escala fixa. Este paradigma predominante de escala única ignora uma propriedade fundamental da percepção visual: diferentes resoluções oferecem vieses indutivos complementares, nas quais visões de baixa resolução se destacam no reconhecimento semântico global, enquanto visões de alta resolução são essenciais para o refinamento de detalhes finos. Neste trabalho, propomos a Fusão Multi-Resolução (MuRF), uma estratégia simples, mas universalmente eficaz, para aproveitar essa sinergia no momento da inferência. Em vez de depender de uma única visão, o MuRF constrói uma representação unificada processando uma imagem em múltiplas resoluções por meio de um VFM congelado e fundindo as características resultantes. A universalidade do MuRF é o seu atributo mais convincente. Ele não está vinculado a uma arquitetura específica, servindo, em vez disso, como um aprimoramento fundamental e livre de treinamento para a representação visual. Validamos isso empiricamente aplicando o MuRF a um amplo espectro de tarefas críticas de visão computacional em várias famílias distintas de VFMs - principalmente o DINOv2, mas também demonstrando uma generalização bem-sucedida para modelos contrastivos, como o SigLIP2.
Os agentes de LLM aumentados por memória mantêm bancos de memória externos para suportar interações de longo horizonte, porém a maioria dos sistemas existentes trata a construção, recuperação e utilização como sub-rotinas isoladas. Isso cria dois desafios acoplados: cegueira estratégica no caminho direto do ciclo de memória, onde a construção e recuperação são orientadas por heurísticas locais em vez de raciocínio estratégico explícito, e supervisão esparsa e atrasada no caminho reverso, onde falhas posteriores raramente se traduzem em reparos diretos do banco de memória. Para enfrentar esses desafios, propomos o MemMA, uma estrutura multiagente plug-and-play que coordena o ciclo de memória ao longo dos caminhos direto e reverso. No caminho direto, um Meta-Pensador produz orientação estruturada que direciona um Gerenciador de Memória durante a construção e orienta um Raciocinador de Consultas durante a recuperação iterativa. No caminho reverso, o MemMA introduz uma construção de memória de auto-evolução in-situ, que sintetiza pares de perguntas-respostas de sondagem, verifica a memória atual e converte falhas em ações de reparo antes que a memória seja finalizada. Experimentos extensivos no LoCoMo mostram que o MemMA supera consistentemente as linhas de base existentes em múltiplos modelos de LLM e melhora três diferentes backends de armazenamento de maneira plug-and-play. Nosso código está publicamente disponível em https://github.com/ventr1c/memma.
Este artigo apresenta o FinMCP-Bench, um novo benchmark para avaliar modelos de linguagem de grande escala (LLMs) na resolução de problemas financeiros do mundo real por meio da invocação de ferramentas de protocolos de contexto de modelo financeiro (MCPs). O FinMCP-Bench contém 613 amostras abrangendo 10 cenários principais e 33 subcenários, apresentando consultas de usuários reais e sintéticas para garantir diversidade e autenticidade. Ele incorpora 65 MCPs financeiros reais e três tipos de amostras - ferramenta única, múltiplas ferramentas e múltiplos turnos - permitindo a avaliação dos modelos em diferentes níveis de complexidade de tarefas. Utilizando este benchmark, avaliamos sistematicamente uma série de LLMs predominantes e propomos métricas que medem explicitamente a precisão na invocação de ferramentas e as capacidades de raciocínio. O FinMCP-Bench fornece um ambiente de teste padronizado, prático e desafiador para avançar a pesquisa sobre agentes de LLM na área financeira.
Os Operadores de Variação Agêntica (AVO) são uma nova família de operadores de variação evolutiva que substituem a mutação fixa, o *crossover* e as heurísticas manuais da busca evolutiva clássica por agentes de codificação autónomos. Em vez de confinar um modelo de linguagem à geração de candidatos dentro de um *pipeline* pré-definido, o AVO instancia a variação como um ciclo de agente autodirigido que pode consultar a linhagem atual, uma base de conhecimento específica do domínio e o *feedback* de execução para propor, reparar, criticar e verificar edições de implementação. Avaliamos o AVO no *attention*, um dos alvos de *kernel* mais intensamente otimizados na IA, em GPUs NVIDIA Blackwell (B200). Após 7 dias de evolução autónoma contínua no *multi-head attention*, o AVO descobre *kernels* que superam o cuDNN em até 3,5% e o FlashAttention-4 em até 10,5% nas configurações avaliadas. As otimizações descobertas transferem-se prontamente para o *grouped-query attention*, exigindo apenas 30 minutos de adaptação autónoma adicional e produzindo ganhos de até 7,0% sobre o cuDNN e 9,3% sobre o FlashAttention-4. Em conjunto, estes resultados mostram que os operadores de variação agêntica vão além dos *pipelines* evolutivos anteriores com LLM, elevando o agente de gerador de candidatos a operador de variação, e podem descobrir otimizações microarquitetónicas críticas para o desempenho que produzem *kernels* que superam as implementações de *attention* state-of-the-art concebidas por especialistas no hardware de GPU mais avançado de hoje.
Os modelos visão-linguagem-ação revolucionaram a condução autónoma ao incorporar linguagem no processo de tomada de decisão. No entanto, a maioria dos sistemas existentes utiliza a modalidade linguística apenas para descrições ou raciocínio de cena, carecendo da flexibilidade para seguir instruções diversificadas do utilizador para uma condução personalizada. Para resolver esta limitação, construímos primeiro um conjunto de dados de condução em larga escala (InstructScene) contendo cerca de 100.000 cenas anotadas com diversas instruções de condução e as respetivas trajetórias. Propomos depois um modelo unificado Visão-Linguagem-Mundo-Ação, o Vega, para geração e planeamento baseados em instruções. Empregamos o paradigma autoregressivo para processar entradas visuais (visão) e instruções linguísticas (linguagem) e o paradigma de difusão para gerar previsões futuras (modelação do mundo) e trajetórias (ação). Realizamos atenção conjunta para permitir interações entre as modalidades e utilizamos camadas de projeção individuais para diferentes modalidades, conferindo maior capacidade. Experimentos extensivos demonstram que o nosso método não só alcança um desempenho de planeamento superior, como também exibe fortes capacidades de seguimento de instruções, abrindo caminho para sistemas de condução mais inteligentes e personalizados.
A destilação on-policy (OPD) é atraente para o pós-treinamento de grandes modelos de linguagem (LLMs) porque avalia o feedback do professor em rollouts gerados pelo aluno, em vez de em trajetórias fixas do professor. No entanto, em cenários de longo horizonte, a variante comum com token amostrado é frágil: ela reduz o casamento de distribuição a um sinal de um único token e torna-se progressivamente menos confiável à medida que os rollouts se afastam dos prefixos que o professor costuma visitar. Revisitamos a OPD pelos lados do estimador e da implementação. Teoricamente, a OPD em nível de token é tendenciosa em relação à divergência reversa de KL em nível de sequência, mas possui um limite de variância no pior caso muito mais restrito; nosso estudo em um ambiente controlado mostra a mesma compensação empiricamente, com um acoplamento mais forte de recompensa futura produzindo maior variância no gradiente e aprendizado menos estável. Empiricamente, identificamos três modos de falha da OPD com token amostrado: um sinal desequilibrado de um único token, orientação não confiável do professor sobre prefixos gerados pelo aluno e distorções causadas por incompatibilidade de tokenizer ou de tokens especiais. Abordamos essas questões com o casamento do suporte local top-K do professor, implementado como uma divergência reversa de KL truncada com amostragem de rollout top-p e mascaramento de tokens especiais. Tanto no raciocínio matemático de tarefa única quanto no treinamento multitarefa (agência mais matemática), esse objetivo resulta em uma otimização mais estável e em melhor desempenho downstream do que a OPD com token amostrado.
Os modelos de linguagem de difusão em blocos oferecem um caminho promissor para geração mais rápida do que a autoregressão, combinando decodificação autoregressiva por blocos com desruído paralelo dentro do bloco. No entanto, no regime de poucos passos necessário para aceleração prática, a decodificação padrão com limiar de confiança é frequentemente frágil: limiares agressivos prejudicam a qualidade, enquanto limiares conservadores exigem etapas de desruído desnecessárias. As abordagens existentes que resolvem este problema ou exigem treinamento adicional ou incorrem em computação extra durante o teste. Apresentamos o S2D2, uma estrutura de decodificação autoespeculativa sem necessidade de treinamento para modelos de linguagem de difusão em blocos. Nossa observação fundamental é que um modelo de difusão em blocos torna-se autoregressivo quando o tamanho do bloco é reduzido para um, permitindo que o mesmo modelo pré-treinado atue como rascunhador e verificador. O S2D2 insere uma etapa de verificação especulativa na decodificação padrão de difusão em blocos e usa políticas de roteamento leves para decidir quando a verificação vale o seu custo. Isso produz uma trajetória de decodificação híbrida na qual a difusão propõe tokens em paralelo, enquanto o modo autoregressivo atua como um crítico sequencial a nível local. Em três famílias principais de difusão em blocos, o S2D2 melhora consistentemente o compromisso entre precisão e velocidade em relação às fortes linhas de base com limiar de confiança. No SDAR, observamos uma aceleração de até 4,7 vezes em relação à decodificação autoregressiva, e até 1,57 vezes em relação a uma linha de base dinâmica ajustada, enquanto melhora a precisão em até 4,5 pontos. No LLaDA2.1-Mini, o S2D2 permanece complementar à autocorreção integrada, incluindo uma configuração conservadora onde é 4,4 vezes mais rápido do que a linha de base estática com precisão ligeiramente maior.
Dada uma pergunta, um modelo de linguagem (LM) codifica implicitamente uma distribuição sobre possíveis respostas. Na prática, os procedimentos de pós-treinamento para LMs frequentemente colapsam essa distribuição em um único modo dominante. Embora isso geralmente não seja um problema para avaliações do tipo *benchmark* que assumem uma resposta correta, muitas tarefas do mundo real envolvem inerentemente múltiplas respostas válidas ou incerteza irredutível. Exemplos incluem diagnóstico médico, resposta a perguntas ambíguas e contextos com informação incompleta. Nestes casos, gostaríamos que os LMs gerassem múltiplas hipóteses plausíveis, idealmente com estimativas de confiança para cada uma, e sem a necessidade de amostragem repetida computacionalmente intensa para gerar respostas não modais. Este artigo descreve uma abordagem de aprendizagem por reforço multi-resposta para treinar LMs a realizar raciocínio distribucional sobre múltiplas respostas durante a inferência. Modificamos o objetivo de RL para permitir que os modelos gerem explicitamente múltiplas respostas candidatas em uma única passagem (*forward pass*), internalizando aspetos da busca no momento de inferência no processo generativo do modelo. Em *benchmarks* de resposta a perguntas, diagnóstico médico e programação, observamos melhorias na diversidade, cobertura e pontuações de calibração a nível de conjunto, em comparação com linhas de base treinadas para resposta única. Os modelos treinados com a nossa abordagem requerem menos *tokens* para gerar múltiplas respostas do que as abordagens concorrentes. Em tarefas de programação, são também substancialmente mais precisos. Estes resultados posicionam o RL multi-resposta como uma alternativa fundamentada e computacionalmente eficiente aos procedimentos de escalonamento no momento de inferência, como o *best-of-k*. O código e mais informações podem ser encontrados em https://multi-answer-rl.github.io/.
A compreensão de espécies animais a partir de dados multimodais representa um desafio emergente na intersecção entre a visão computacional e a ecologia. Embora modelos biológicos recentes, como o BioCLIP, tenham demonstrado uma forte alinhamento entre imagens e informações taxonômicas textuais para identificação de espécies, a integração da modalidade de áudio permanece um problema em aberto. Propomos o BioVITA, uma nova estrutura de alinhamento visual-textual-acústico para aplicações biológicas. O BioVITA envolve (i) um conjunto de dados de treinamento, (ii) um modelo de representação e (iii) um *benchmark* de recuperação. Primeiro, construímos um conjunto de dados de treinamento em larga escala composto por 1,3 milhões de clipes de áudio e 2,3 milhões de imagens, abrangendo 14.133 espécies anotadas com 34 rótulos de traços ecológicos. Em segundo lugar, com base no BioCLIP2, introduzimos uma estrutura de treinamento em duas etapas para alinhar efetivamente as representações de áudio com as representações visuais e textuais. Terceiro, desenvolvemos um *benchmark* de recuperação multimodal que abrange todas as direções possíveis de recuperação entre as três modalidades (ou seja, imagem-para-áudio, áudio-para-texto, texto-para-imagem e suas direções inversas), com três níveis taxonômicos: Família, Gênero e Espécie. Experimentos extensivos demonstram que o nosso modelo aprende um espaço de representação unificado que captura semântica a nível de espécie para além da taxonomia, avançando a compreensão multimodal da biodiversidade. A página do projeto está disponível em: https://dahlian00.github.io/BioVITA_Page/
A avaliação de rascunhos manuscritos de estudantes é crucial para o feedback educacional personalizado, mas apresenta desafios únicos devido à diversidade de caligrafia, layouts complexos e abordagens variadas de resolução de problemas. A PNL educacional existente foca-se principalmente em respostas textuais e negligencia a complexidade e multimodalidade inerentes aos rascunhos manuscritos autênticos. Os atuais modelos de linguagem multimodal (MLLMs) destacam-se no raciocínio visual, mas geralmente adotam uma "perspectiva de examinando", priorizando a geração de respostas corretas em vez de diagnosticar erros dos estudantes. Para preencher estas lacunas, introduzimos o ScratchMath, um benchmark inovador especificamente concebido para explicar e classificar erros em rascunhos matemáticos manuscritos autênticos. O nosso conjunto de dados compreende 1.720 amostras matemáticas de estudantes do ensino básico e secundário chinês, suportando duas tarefas principais: Explicação da Causa do Erro (ECE) e Classificação da Causa do Erro (ECC), com sete tipos de erro definidos. O conjunto de dados é meticulosamente anotado através de rigorosas abordagens colaborativas homem-máquina envolvendo múltiplas etapas de etiquetagem especializada, revisão e verificação. Avaliamos sistematicamente 16 MLLMs líderes no ScratchMath, revelando lacunas significativas de desempenho em relação a especialistas humanos, particularmente no reconhecimento visual e raciocínio lógico. Modelos proprietários superam notavelmente os modelos de código aberto, com grandes modelos de raciocínio demonstrando forte potencial para explicação de erros. Todos os dados e estruturas de avaliação estão publicamente disponíveis para facilitar investigações futuras.
Demonstramos um dispositivo semicondutor totalmente de estado sólido, baseado em perovskitas de haleto metálico epitaxiais monocristalinas, que permite o controle reversível da fotoluminescência da perovskita com uma tensão de porta. Fundamentalmente distinto dos díodos eletroluminescentes, tal transistor de efeito de campo de fotoluminescência utiliza o campo elétrico da porta para modular eletrostaticamente a densidade interfacial de cargas móveis, afetando assim os canais de recombinação radiativa e não radiativa dos fotoportadores. A variação da tensão de porta nesses transistors altera eficientemente a taxa de recombinação interfacial não radiativa e modula a intensidade da fotoluminescência em 65 a 98 por cento (dependendo da temperatura). Em condições favoráveis de polarização, pode-se alcançar a eliminação quase completa das perdas não radiativas. Esta funcionalidade, aliada à forte absorção e emissão na faixa do visível, possibilitada pelo alto coeficiente de absorção, bem como pela espessura controlável e morfologia macroscopicamente homogênea dos filmes epitaxiais de perovskita, resulta em altas eficiências quânticas de fotoluminescência externa realizadas em dispositivos de filme fino de grande área. Tais comutadores optoeletrônicos eletrostaticamente sintonizáveis, de alta eficiência e escaláveis, ampliam as aplicações potenciais das perovskitas de haleto metálico na fotônica e na optoeletrônica.
Para agentes robóticos que operam em ambientes dinâmicos, a aprendizagem de representações visuais de estado a partir de observações de vídeo em fluxo contínuo é essencial para a tomada de decisão sequencial. Métodos recentes de aprendizagem auto-supervisionada têm demonstrado forte capacidade de transferência entre tarefas visuais, mas não abordam explicitamente o que uma boa representação visual de estado deve codificar. Argumentamos que estados visuais eficazes devem capturar o que-está-onde, codificando conjuntamente as identidades semânticas dos elementos da cena e as suas localizações espaciais, permitindo a deteção fiável de dinâmicas subtis entre observações. Para tal, propomos o CroBo, um quadro de aprendizagem de representação de estado visual baseado num objetivo de reconstrução global-para-local. Dada uma observação de referência comprimida num token de estrangulamento compacto, o CroBo aprende a reconstruir *patches* fortemente mascarados num recorte local alvo, a partir de pistas visíveis esparsas, usando o token de estrangulamento global como contexto. Este objetivo de aprendizagem incentiva o token de estrangulamento a codificar uma representação de granularidade fina das entidades semânticas de toda a cena, incluindo as suas identidades, localizações espaciais e configurações. Como resultado, os estados visuais aprendidos revelam como os elementos da cena se movem e interagem ao longo do tempo, suportando a tomada de decisão sequencial. Avaliamos o CroBo em diversos benchmarks de aprendizagem de políticas robóticas baseadas em visão, onde atinge um desempenho de ponta. Análises de reconstrução e experiências de retidão perceptual mostram ainda que as representações aprendidas preservam a composição da cena a nível de píxel e codificam o que-se-move-onde entre observações. Página do projeto disponível em: https://seokminlee-chris.github.io/CroBo-ProjectPage.
A técnica de prompting de cadeia de pensamento (CoT) foi estendida a grandes modelos de áudio e linguagem (LALMs) para eliciar raciocínio, mas melhorar sua eficácia sem treinamento permanece um desafio. Estudamos a orientação do modelo no momento da inferência como uma abordagem livre de treinamento para melhorar o raciocínio dos LALMs. Introduzimos três estratégias que utilizam fontes de informação diversas e as avaliamos em quatro LALMs e quatro benchmarks. Os resultados mostram ganhos gerais de precisão de até 4,4% sobre o prompting CoT. Notavelmente, identificamos uma transferência cross-modal em que vetores de orientação derivados de poucas amostras de texto guiam efetivamente o raciocínio baseado em fala, demonstrando alta eficiência de dados. Também examinamos a sensibilidade aos hiperparâmetros para compreender a robustez dessas abordagens. Nossas descobertas posicionam a orientação do modelo como uma direção prática para fortalecer o raciocínio dos LALMs.
A previsão imediata de precipitação é crucial para a mitigação de desastres e a segurança da aviação. No entanto, os modelos baseados apenas em radar frequentemente sofrem com a falta de contexto atmosférico em larga escala, levando à degradação do desempenho em prazos mais longos. Embora a integração de variáveis meteorológicas previstas por modelos de base (foundation models) ofereça um potencial remédio, as arquiteturas existentes não conseguem reconciliar as profundas heterogeneidades representacionais entre imagens de radar e dados meteorológicos. Para preencher esta lacuna, propomos o PW-FouCast, uma nova estrutura de fusão no domínio da frequência que aproveita as previsões do Pangu-Weather como priores espectrais dentro de uma estrutura baseada em Fourier. Nossa arquitetura introduz três inovações principais: (i) Modulação de Frequência Guiada pelo Pangu-Weather para alinhar magnitudes e fases espectrais com os priores meteorológicos; (ii) Memória de Frequência para corrigir discrepâncias de fase e preservar a evolução temporal; e (iii) Atenção de Frequência Invertida para reconstruir detalhes de alta frequência tipicamente perdidos na filtragem espectral. Experimentos extensos nos benchmarks SEVIR e MeteoNet demonstram que o PW-FouCast alcança desempenho de última geração, estendendo efetivamente o horizonte de previsão confiável enquanto mantém a fidelidade estrutural. Nosso código está disponível em https://github.com/Onemissed/PW-FouCast.
Neste relatório, apresentamos a série IQuest-Coder-V1 (7B/14B/40B/40B-Loop), uma nova família de grandes modelos de linguagem (LLMs) para código. Indo além das representações estáticas de código, propomos o paradigma de treinamento multiestágio baseado em fluxo de código, que captura a evolução dinâmica da lógica do software por meio de diferentes fases do *pipeline*. Nossos modelos são desenvolvidos através de um *pipeline* evolutivo, começando com o pré-treinamento inicial, composto por dados de fatos de código, repositórios e conclusão. Em seguida, implementamos uma fase especializada de meio-treinamento que integra trajetórias de raciocínio e agentes em contexto de 32k tokens e em escala de repositório em contexto de 128k tokens, forjando bases lógicas profundas. Os modelos são então finalizados com um pós-treinamento de capacidades de codificação especializadas, que se bifurca em dois caminhos distintos: o caminho do pensamento (utilizando RL orientada por raciocínio) e o caminho de instrução (otimizado para assistência geral). O IQuest-Coder-V1 alcança desempenho de ponta entre os modelos concorrentes em dimensões críticas da inteligência de código: engenharia de software agentiva, programação competitiva e uso complexo de ferramentas. Para lidar com restrições de implantação, a variante IQuest-Coder-V1-Loop introduz um mecanismo recorrente projetado para otimizar o equilíbrio entre a capacidade do modelo e sua pegada computacional, oferecendo um caminho arquitetonicamente aprimorado para o *trade-off* entre eficácia e eficiência. Acreditamos que o lançamento da série IQuest-Coder-V1, incluindo a cadeia completa de *checkpoints* de caixa-branca, desde as bases de pré-treinamento até os modelos finais de pensamento e instrução, irá impulsionar a pesquisa em inteligência de código autônoma e sistemas agentivos do mundo real.
Os Modelos de Base de Visão (VFMs) pré-treinados em larga escala permitem que um único codificador congelado sirva múltiplas tarefas downstream simultaneamente. Modelos recentes baseados em VFMs e com arquitetura somente-codificador para segmentação de imagem e vídeo, como EoMT e VidEoMT, alcançam precisão competitiva com latência notavelmente baixa; no entanto, eles exigem o ajuste fino do codificador, sacrificando o compartilhamento do codificador multitarefa que torna os VFMs praticamente atrativos para implantação em larga escala. Para conciliar a simplicidade e velocidade da arquitetura somente-codificador com as características dos VFMs congelados, propomos o Decodificador de Máscara Simples (PMD), um decodificador de segmentação rápido baseado em Transformer que opera sobre características de VFM congeladas. O modelo resultante, o Transformer de Máscara Simples (PMT), preserva a simplicidade arquitetônica e a baixa latência dos desenhos somente-codificador, mantendo a representação do codificador inalterada e compartilhável. O projeto aplica-se perfeitamente tanto à segmentação de imagem quanto de vídeo, herdando a generalidade da estrutura somente-codificador. Em benchmarks padrão de segmentação de imagem, o PMT iguala o estado da arte com codificador congelado enquanto é executado até ~3x mais rápido. Para segmentação de vídeo, ele chega a performar de forma equivalente a métodos totalmente ajustados, enquanto é até 8x mais rápido que os modelos estado da arte com codificador congelado. Código: https://github.com/tue-mps/pmt.
Apresentamos o WAFT-Stereo, um método simples e eficaz baseado em deformação para correspondência estéreo. O WAFT-Stereo demonstra que os volumes de custo, um design comum utilizado em muitos métodos líderes, não são necessários para um alto desempenho e podem ser substituídos por deformação com eficiência aprimorada. O WAFT-Stereo ocupa a primeira posição nos benchmarks públicos ETH3D, KITTI e Middlebury, reduzindo o erro de generalização zero-shot em 81% no benchmark ETH3D, enquanto é 1,8 a 6,7 vezes mais rápido do que métodos competitivos. O código e os pesos do modelo estão disponíveis em https://github.com/princeton-vl/WAFT-Stereo.