Artigos de pesquisa em IA selecionados diariamente com traduções
Agentes web como o Deep Research demonstraram habilidades cognitivas sobre-humanas, capazes de resolver problemas altamente desafiadores de busca de informações. No entanto, a maioria das pesquisas permanece principalmente centrada em texto, negligenciando informações visuais do mundo real. Isso torna o Deep Research multimodal altamente desafiador, pois tais agentes exigem habilidades de raciocínio muito mais fortes em percepção, lógica, conhecimento e o uso de ferramentas mais sofisticadas em comparação com agentes baseados em texto. Para abordar essa limitação, apresentamos o WebWatcher, um Agente multimodal para Deep Research equipado com capacidades aprimoradas de raciocínio visual-linguístico. Ele aproveita trajetórias multimodais sintéticas de alta qualidade para um treinamento eficiente de inicialização a frio, utiliza diversas ferramentas para raciocínio profundo e aprimora ainda mais a generalização por meio de aprendizado por reforço. Para avaliar melhor as capacidades de agentes multimodais, propomos o BrowseComp-VL, um benchmark no estilo BrowseComp que requer recuperação complexa de informações envolvendo tanto dados visuais quanto textuais. Resultados experimentais mostram que o WebWatcher supera significativamente a linha de base proprietária, o fluxo de trabalho RAG e agentes de código aberto em quatro benchmarks desafiadores de VQA, abrindo caminho para a resolução de tarefas complexas de busca de informações multimodais.
A geração de mundos 3D exploráveis a partir de uma única imagem ou prompt de texto constitui um pilar fundamental da inteligência espacial. Trabalhos recentes utilizam modelos de vídeo para alcançar a geração de mundos 3D de amplo escopo e generalizável. No entanto, as abordagens existentes frequentemente sofrem com um escopo limitado nas cenas geradas. Neste trabalho, propomos o Matrix-3D, um framework que utiliza representação panorâmica para a geração de mundos 3D exploráveis omnidirecionais de ampla cobertura, combinando geração condicional de vídeo e reconstrução panorâmica 3D. Primeiro, treinamos um modelo de difusão de vídeo panorâmico guiado por trajetória que emprega renderizações de malhas de cena como condição, permitindo a geração de vídeos de cena de alta qualidade e geometricamente consistentes. Para elevar o vídeo panorâmico da cena ao mundo 3D, propomos dois métodos separados: (1) um modelo de reconstrução de grande panorama de avanço rápido para reconstrução rápida de cenas 3D e (2) um pipeline baseado em otimização para reconstrução precisa e detalhada de cenas 3D. Para facilitar o treinamento eficaz, também introduzimos o conjunto de dados Matrix-Pano, a primeira coleção sintética em larga escala composta por 116K sequências de vídeo panorâmico estático de alta qualidade com anotações de profundidade e trajetória. Experimentos extensivos demonstram que o nosso framework proposto alcança desempenho de ponta na geração de vídeo panorâmico e na geração de mundos 3D. Veja mais em https://matrix-3d.github.io.
Os avanços recentes em agentes baseados em LLM demonstraram capacidades notáveis no tratamento de tarefas complexas e intensivas em conhecimento, integrando ferramentas externas. Entre as diversas opções de ferramentas, as ferramentas de busca desempenham um papel fundamental no acesso a vastos conhecimentos externos. No entanto, os agentes de código aberto ainda não alcançam a Inteligência de Busca em nível de especialista, que é a capacidade de resolver consultas ambíguas, gerar buscas precisas, analisar resultados e conduzir explorações minuciosas. As abordagens existentes apresentam deficiências em escalabilidade, eficiência e qualidade dos dados. Por exemplo, os limites curtos de turnos nos métodos de RL online existentes, por exemplo, <=10, restringem o aprendizado de estratégias complexas. Este artigo apresenta o ASearcher, um projeto de código aberto para treinamento de RL em larga escala de agentes de busca. Nossas principais contribuições incluem: (1) Treinamento de RL totalmente assíncrono e escalável que permite buscas de longo horizonte, mantendo alta eficiência de treinamento. (2) Um agente LLM baseado em prompts que sintetiza de forma autônoma QAs de alta qualidade e desafiadores, criando um grande conjunto de dados de QAs. Através do treinamento de RL, nosso agente QwQ-32B baseado em prompts alcança melhorias substanciais, com ganhos de 46,7% e 20,8% em Avg@4 no xBench e GAIA, respectivamente. Notavelmente, nosso agente exibe busca de extremo longo horizonte, com chamadas de ferramentas excedendo 40 turnos e tokens de saída excedendo 150k durante o tempo de treinamento. Com um design simples de agente e sem LLMs externos, o ASearcher-Web-QwQ alcança pontuações Avg@4 de 42,1 no xBench e 52,8 no GAIA, superando os agentes de código aberto de 32B existentes. Disponibilizamos nossos modelos, dados de treinamento e códigos em https://github.com/inclusionAI/ASearcher.
A capacidade de seguir instruções tem catalisado a era recente dos Modelos de Linguagem de Grande Escala (LLMs) e é a habilidade fundamental que sustenta capacidades mais avançadas, como raciocínio e comportamentos agentivos. À medida que as tarefas se tornam mais desafiadoras, as estruturas lógicas embutidas nas instruções em linguagem natural tornam-se cada vez mais complexas. No entanto, o desempenho dos LLMs em instruções ricas em lógica ainda é pouco explorado. Propomos o LogicIFGen e o LogicIFEval. O LogicIFGen é uma estrutura escalável e automatizada para gerar instruções verificáveis a partir de funções de código, que podem expressar naturalmente lógica rica, como condicionais, aninhamento, recursão e chamadas de funções. Além disso, selecionamos uma coleção de funções de código complexas e usamos o LogicIFGen para construir o LogicIFEval, um benchmark composto por 426 instruções verificáveis e ricas em lógica. Nossos experimentos demonstram que os LLMs de última geração ainda têm dificuldade em seguir corretamente as instruções do LogicIFEval. A maioria dos LLMs consegue seguir menos de 60% das instruções, revelando deficiências significativas na capacidade de seguir instruções. Código e Benchmark: https://github.com/mianzhang/LogicIF
Neste artigo, propomos o CharacterShot, uma estrutura de animação de personagens 4D controlável e consistente que permite a qualquer designer individual criar personagens 3D dinâmicos (ou seja, animação de personagens 4D) a partir de uma única imagem de referência de personagem e uma sequência de poses 2D. Começamos pré-treinando um poderoso modelo de animação de personagens 2D baseado em um modelo de imagem-para-vídeo de última geração baseado em DiT, que permite qualquer sequência de poses 2D como sinal controlável. Em seguida, elevamos o modelo de animação de 2D para 3D através da introdução de um módulo de atenção dupla juntamente com um prior de câmera para gerar vídeos multi-visão com consistência espaço-temporal e espaço-visual. Finalmente, empregamos uma nova otimização de splatting gaussiano 4D com restrição de vizinhança nesses vídeos multi-visão, resultando em representações de personagens 4D contínuas e estáveis. Além disso, para melhorar o desempenho centrado no personagem, construímos um grande conjunto de dados Character4D, contendo 13.115 personagens únicos com aparências e movimentos diversos, renderizados a partir de múltiplos pontos de vista. Experimentos extensivos em nosso novo benchmark, CharacterBench, demonstram que nossa abordagem supera os métodos atuais de última geração. Códigos, modelos e conjuntos de dados estarão publicamente disponíveis em https://github.com/Jeoyal/CharacterShot.
Modelos de linguagem de grande escala baseados em difusão (dLLMs) geram texto por meio de desruídos iterativos, mas as estratégias atuais de decodificação descartam previsões intermediárias ricas em favor da saída final. Nosso trabalho aqui revela um fenômeno crítico, a oscilação temporal, em que respostas corretas frequentemente surgem no processo intermediário, mas são sobrescritas em etapas posteriores de desruído. Para abordar esse problema, introduzimos dois métodos complementares que exploram a consistência temporal: 1) Votação de Autoconsistência Temporal, uma estratégia de decodificação sem treinamento, aplicada durante o teste, que agrega previsões ao longo das etapas de desruído para selecionar a saída mais consistente; e 2) um método pós-treinamento denominado Reforço de Consistência Temporal, que utiliza a Entropia Semântica Temporal (TSE), uma medida de estabilidade semântica entre previsões intermediárias, como sinal de recompensa para incentivar gerações estáveis. Resultados empíricos em múltiplos benchmarks demonstram a eficácia de nossa abordagem. Usando apenas a recompensa negativa de TSE, observamos uma melhoria média notável de 24,7% no conjunto de dados Countdown em relação a um dLLM existente. Combinado com a recompensa de precisão, alcançamos ganhos absolutos de 2,0% no GSM8K, 4,3% no MATH500, 6,6% no SVAMP e 25,3% no Countdown, respectivamente. Nossas descobertas destacam o potencial inexplorado da dinâmica temporal em dLLMs e oferecem duas ferramentas simples, porém eficazes, para aproveitá-las.
Apresentamos o VertexRegen, uma nova estrutura de geração de malhas que permite a geração em um nível contínuo de detalhes. Os métodos autoregressivos existentes geram malhas de maneira parcial-para-completa, de modo que as etapas intermediárias da geração representam estruturas incompletas. O VertexRegen se inspira em malhas progressivas e reformula o processo como a reversão do colapso de arestas, ou seja, a divisão de vértices, aprendida por meio de um modelo generativo. Resultados experimentais demonstram que o VertexRegen produz malhas de qualidade comparável aos métodos mais avançados, ao mesmo tempo que oferece de forma única a geração a qualquer momento, com a flexibilidade de interromper em qualquer etapa para produzir malhas válidas com diferentes níveis de detalhe.
Modelos de visão e linguagem têm demonstrado capacidades impressionantes como agentes de uso de computador (CUAs, na sigla em inglês), capazes de automatizar diversas tarefas computacionais. À medida que seu potencial comercial cresce, detalhes críticos dos sistemas CUA mais avançados permanecem fechados. Como esses agentes mediarão cada vez mais interações digitais e executarão decisões importantes em nosso nome, a comunidade de pesquisa precisa de acesso a frameworks CUA abertos para estudar suas capacidades, limitações e riscos. Para preencher essa lacuna, propomos o OpenCUA, um framework abrangente e de código aberto para escalar dados e modelos de base CUA. Nosso framework consiste em: (1) uma infraestrutura de anotação que captura de forma contínua demonstrações de uso de computador por humanos; (2) o AgentNet, o primeiro conjunto de dados em larga escala de tarefas de uso de computador, abrangendo 3 sistemas operacionais e mais de 200 aplicativos e sites; (3) um pipeline escalável que transforma demonstrações em pares estado-ação com raciocínio reflexivo de Cadeia de Pensamento (Chain-of-Thought) que sustenta ganhos robustos de desempenho à medida que os dados escalam. Nossos modelos de agentes de ponta a ponta demonstram um desempenho forte em benchmarks CUA. Em particular, o OpenCUA-32B alcança uma taxa média de sucesso de 34,8% no OSWorld-Verified, estabelecendo um novo estado da arte (SOTA) entre modelos de código aberto e superando o CUA da OpenAI (GPT-4o). Análises adicionais confirmam que nossa abordagem generaliza bem entre domínios e se beneficia significativamente do aumento da computação em tempo de teste. Disponibilizamos nossa ferramenta de anotação, conjuntos de dados, código e modelos para construir bases abertas para futuras pesquisas em CUA.
Recentemente, grandes modelos de raciocínio demonstraram fortes habilidades matemáticas e de codificação, e a busca profunda aproveita suas capacidades de raciocínio em tarefas desafiadoras de recuperação de informações. Os trabalhos existentes de busca profunda geralmente se limitam a uma única fonte de conhecimento, seja local ou da Web. No entanto, as empresas frequentemente exigem sistemas de busca profunda privados que possam utilizar ferramentas de busca tanto em corpus locais quanto na Web. Simplesmente treinar um agente equipado com múltiplas ferramentas de busca usando aprendizado por reforço (RL) plano é uma ideia direta, mas apresenta problemas como baixa eficiência de dados de treinamento e domínio insuficiente de ferramentas complexas. Para resolver o problema acima, propomos um framework hierárquico de busca profunda agentiva, HierSearch, treinado com RL hierárquico. No nível baixo, um agente de busca profunda local e um agente de busca profunda na Web são treinados para recuperar evidências de seus respectivos domínios. No nível alto, um agente planejador coordena os agentes de nível baixo e fornece a resposta final. Além disso, para evitar a cópia direta de respostas e a propagação de erros, projetamos um refinador de conhecimento que filtra alucinações e evidências irrelevantes retornadas pelos agentes de nível baixo. Experimentos mostram que o HierSearch alcança um desempenho melhor em comparação com o RL plano, e supera várias baselines de busca profunda e geração aumentada por recuperação de múltiplas fontes em seis benchmarks nos domínios geral, financeiro e médico.
Trabalhos recentes sobre a melhoria das habilidades de raciocínio de modelos de linguagem de grande escala (LLMs) introduziram o controle explícito de comprimento como uma forma de limitar o custo computacional enquanto mantém a precisão. No entanto, as abordagens existentes dependem de orçamentos de treinamento de comprimento fixo, que não aproveitam a progressão natural da exploração para a compressão durante o aprendizado. Neste trabalho, propomos uma estratégia de aprendizado curricular para raciocínio controlado por comprimento usando Otimização de Política Relativa de Grupo (GRPO). Nosso método começa com orçamentos generosos de tokens e gradualmente os reduz ao longo do treinamento, incentivando os modelos a primeiro descobrir estratégias de solução eficazes e depois destilá-las em traços de raciocínio mais concisos. Aumentamos o GRPO com uma função de recompensa que equilibra três sinais: correção da tarefa (via feedback do verificador), eficiência de comprimento e aderência à formatação (via tags estruturais). Experimentos no GSM8K, MATH500, SVAMP, College Math e GSM+ demonstram que o treinamento baseado em currículo supera consistentemente as linhas de base de orçamento fixo no mesmo orçamento final, alcançando maior precisão e eficiência de tokens significativamente melhorada. Além disso, avaliamos o impacto da ponderação de recompensa e do design do cronograma de decaimento, mostrando que a restrição progressiva serve como um poderoso viés indutivo para treinar modelos de raciocínio eficientes. Nosso código e checkpoints são disponibilizados em: https://github.com/hammoudhasan/curriculum_grpo.
Os modelos de difusão atuais para geração de vídeos de avatares impulsionados por áudio enfrentam dificuldades em sintetizar vídeos longos com sincronização natural de áudio e consistência de identidade. Este artigo apresenta o StableAvatar, o primeiro transformer de difusão de vídeo end-to-end que sintetiza vídeos de alta qualidade de comprimento infinito sem pós-processamento. Condicionado por uma imagem de referência e áudio, o StableAvatar integra módulos de treinamento e inferência personalizados para permitir a geração de vídeos de comprimento infinito. Observamos que a principal razão que impede os modelos existentes de gerar vídeos longos reside na sua modelagem de áudio. Eles geralmente dependem de extratores de terceiros prontos para uso para obter embeddings de áudio, que são então injetados diretamente no modelo de difusão via atenção cruzada. Como os backbones de difusão atuais não possuem quaisquer conhecimentos prévios relacionados a áudio, essa abordagem causa um acúmulo severo de erros na distribuição latente entre clipes de vídeo, fazendo com que a distribuição latente dos segmentos subsequentes se afaste gradualmente da distribuição ótima. Para resolver isso, o StableAvatar introduz um novo Adaptador de Áudio Consciente do Passo de Tempo que previne o acúmulo de erros via modulação consciente do passo de tempo. Durante a inferência, propomos um novo Mecanismo de Orientação Nativa de Áudio para aprimorar ainda mais a sincronização de áudio, aproveitando a previsão conjunta de áudio-latente em evolução da própria difusão como um sinal de orientação dinâmico. Para aumentar a suavidade dos vídeos de comprimento infinito, introduzimos uma Estratégia de Janela Deslizante com Peso Dinâmico que funde os latentes ao longo do tempo. Experimentos em benchmarks mostram a eficácia do StableAvatar tanto qualitativa quanto quantitativamente.
A fundamentação de Interface Gráfica do Usuário (GUI), a tarefa de mapear instruções em linguagem natural para coordenadas precisas na tela, é essencial para agentes autônomos de GUI. Embora os métodos existentes alcancem desempenho robusto por meio de treinamento supervisionado extensivo ou aprendizado por reforço com recompensas rotuladas, eles permanecem limitados pelo custo e disponibilidade de anotações em nível de pixel. Observamos que, quando os modelos geram múltiplas previsões para o mesmo elemento de GUI, os padrões de sobreposição espacial revelam sinais implícitos de confiança que podem orientar uma localização mais precisa. Aproveitando essa percepção, propomos o GUI-RC (Consistência de Região), um método de escalonamento em tempo de teste que constrói grades de votação espacial a partir de múltiplas previsões amostradas para identificar regiões de consenso onde os modelos apresentam maior concordância. Sem qualquer treinamento, o GUI-RC melhora a precisão em 2-3% em várias arquiteturas nos benchmarks do ScreenSpot. Introduzimos ainda o GUI-RCPO (Otimização de Política de Consistência de Região), que transforma esses padrões de consistência em recompensas para o aprendizado por reforço em tempo de teste. Ao calcular o quão bem cada previsão se alinha com o consenso coletivo, o GUI-RCPO permite que os modelos refinem iterativamente suas saídas em dados não rotulados durante a inferência. Experimentos extensivos demonstram a generalidade da nossa abordagem: o GUI-RC eleva o Qwen2.5-VL-3B-Instruct de 80,11% para 83,57% no ScreenSpot-v2, enquanto o GUI-RCPO o melhora ainda mais para 85,14% por meio de otimização auto-supervisionada. Nossa abordagem revela o potencial inexplorado do escalonamento em tempo de teste e do aprendizado por reforço em tempo de teste para a fundamentação de GUI, oferecendo um caminho promissor para agentes de GUI mais robustos e eficientes em termos de dados.
O uso eficaz de ferramentas é essencial para que os modelos de linguagem de grande escala (LLMs) interajam de forma significativa com seu ambiente. No entanto, o progresso é limitado pela falta de frameworks eficientes de aprendizado por reforço (RL) projetados especificamente para o uso de ferramentas, devido aos desafios na construção de ambientes de treinamento estáveis e no design de mecanismos de recompensa verificáveis. Para abordar isso, propomos um pipeline automatizado de construção de ambientes, incorporando decomposição de cenários, geração de documentos, integração de funções, escalonamento de complexidade e implantação localizada. Isso permite a criação de ambientes de treinamento de alta qualidade que fornecem feedback detalhado e mensurável sem depender de ferramentas externas. Além disso, introduzimos um mecanismo de recompensa verificável que avalia tanto a precisão do uso de ferramentas quanto a completude da execução de tarefas. Quando combinado com dados de trajetória coletados dos ambientes construídos, esse mecanismo se integra perfeitamente com algoritmos padrão de RL para facilitar o treinamento de modelos orientado por feedback. Experimentos com LLMs de diferentes escalas demonstram que nossa abordagem melhora significativamente o desempenho dos modelos no uso de ferramentas sem degradar suas capacidades gerais, independentemente dos modos de inferência ou algoritmos de treinamento. Nossa análise sugere que esses ganhos resultam de uma melhor compreensão e raciocínio contextual, impulsionados por atualizações nos parâmetros das camadas inferiores de MLP nos modelos.
Apresentamos o Aryabhata 1.0, um modelo compacto de raciocínio matemático com 7 bilhões de parâmetros, otimizado para o exame acadêmico indiano, o Joint Entrance Examination (JEE). Apesar dos rápidos avanços nos modelos de linguagem de grande escala (LLMs), os modelos atuais frequentemente permanecem inadequados para uso educacional. O Aryabhata 1.0 foi construído pela fusão de modelos de raciocínio de código aberto de alta qualidade, seguido por ajuste fino supervisionado (SFT) com aprendizado curricular em traços verificados de cadeia de pensamento (CoT) curados por meio de amostragem de rejeição best-of-n. Para aprimorar ainda mais o desempenho, aplicamos aprendizado por reforço com recompensas verificáveis (RLVR) usando o objetivo A2C com estimativa de vantagem relativa ao grupo, juntamente com estratégias de exploração inovadoras, como Redimensionamento Adaptativo de Grupo e Escalonamento de Temperatura. Avaliado em benchmarks tanto dentro da distribuição (JEE Main 2025) quanto fora da distribuição (MATH, GSM8K), o Aryabhata supera os modelos existentes em precisão e eficiência, ao mesmo tempo em que oferece raciocínio passo a passo pedagogicamente útil. Lançamos o Aryabhata como um modelo de base para avançar os modelos de linguagem pequenos de código aberto centrados em exames. Este é o nosso primeiro lançamento aberto para feedback da comunidade (https://huggingface.co/PhysicsWallahAI/Aryabhata-1.0{Aryabhata 1.0 no Hugging Face}); a PW está treinando ativamente modelos futuros para melhorar ainda mais os resultados de aprendizagem dos alunos.
A geração de texto para imagem (T2I) tem sido ativamente estudada utilizando Modelos de Difusão e Modelos Autoregressivos. Recentemente, Transformadores Generativos Mascarados ganharam atenção como uma alternativa aos Modelos Autoregressivos para superar as limitações inerentes da atenção causal e da decodificação autoregressiva, por meio de atenção bidirecional e decodificação paralela, permitindo a geração eficiente e de alta qualidade de imagens. No entanto, a geração composicional de T2I continua desafiadora, já que até mesmo os Modelos de Difusão mais avançados frequentemente falham em vincular atributos com precisão e alcançar um alinhamento adequado entre texto e imagem. Embora os Modelos de Difusão tenham sido extensivamente estudados para essa questão, os Transformadores Generativos Mascarados exibem limitações semelhantes, mas ainda não foram explorados nesse contexto. Para abordar isso, propomos o Unmasking with Contrastive Attention Guidance (UNCAGE), um método novo e livre de treinamento que melhora a fidelidade composicional ao aproveitar mapas de atenção para priorizar o desmascaramento de tokens que representam claramente objetos individuais. O UNCAGE melhora consistentemente o desempenho em avaliações quantitativas e qualitativas em vários benchmarks e métricas, com sobrecarga de inferência insignificante. Nosso código está disponível em https://github.com/furiosa-ai/uncage.
A geração eficaz de múltiplos planos exige transições intencionais, semelhantes às do cinema, e uma continuidade cinematográfica rigorosa. No entanto, os métodos atuais frequentemente priorizam a consistência visual básica, negligenciando padrões cruciais de edição (por exemplo, plano/contraplano, inserções) que impulsionam o fluxo narrativo para uma narrativa envolvente. Isso resulta em saídas que podem ser visualmente coerentes, mas carecem de sofisticação narrativa e de verdadeira integridade cinematográfica. Para superar isso, introduzimos a Geração do Próximo Plano (Next Shot Generation - NSG): a síntese de um plano subsequente de alta qualidade que se conforma criticamente aos padrões profissionais de edição, mantendo uma continuidade cinematográfica rigorosa. Nosso framework, Cut2Next, utiliza um Transformer de Difusão (DiT). Ele emprega ajuste em contexto guiado por uma nova estratégia de Multi-Prompting Hierárquico. Essa estratégia usa Prompts Relacionais para definir o contexto geral e os estilos de edição entre planos. Prompts Individuais, então, especificam o conteúdo por plano e os atributos cinematográficos. Juntos, esses elementos orientam o Cut2Next a gerar planos subsequentes cinematicamente apropriados. Inovações arquitetônicas, Injeção de Condicionamento Consciente do Contexto (Context-Aware Condition Injection - CACI) e Máscara de Atenção Hierárquica (Hierarchical Attention Mask - HAM), integram ainda mais esses diversos sinais sem introduzir novos parâmetros. Construímos os conjuntos de dados RawCuts (em larga escala) e CuratedCuts (refinados), ambos com prompts hierárquicos, e introduzimos o CutBench para avaliação. Os experimentos mostram que o Cut2Next se destaca em consistência visual e fidelidade textual. Crucialmente, estudos com usuários revelam uma forte preferência pelo Cut2Next, particularmente por sua adesão aos padrões de edição pretendidos e à continuidade cinematográfica geral, validando sua capacidade de gerar planos subsequentes de alta qualidade, expressivos narrativamente e cinematicamente coerentes.
Este artigo apresenta uma regularização simples, porém eficaz, para o modelo de linguagem interno induzido pelo decodificador em modelos de reconhecimento automático de fala (ASR) do tipo codificador-decodificador, melhorando assim a robustez e a generalização tanto em cenários dentro quanto fora do domínio. O método proposto, chamado Regularização Centrada no Decodificador em Codificador-Decodificador (DeCRED), adiciona classificadores auxiliares ao decodificador, permitindo a previsão do próximo token por meio de logits intermediários. Empiricamente, o DeCRED reduz a perplexidade média do modelo de linguagem interno em BPE em 36,6% em relação a 11 conjuntos de teste. Além disso, isso se traduz em melhorias reais na Taxa de Erro de Palavras (WER) em relação à linha de base em 5 de 7 conjuntos de teste dentro do domínio e em 3 de 4 conjuntos de teste fora do domínio, reduzindo a WER macro de 6,4% para 6,3% e de 18,2% para 16,2%, respectivamente. No TEDLIUM3, o DeCRED alcança 7,0% de WER, superando a linha de base e a regularização InterCTC centrada no codificador em 0,6% e 0,5%, respectivamente. Por fim, comparamos o DeCRED com o OWSM v3.1 e o Whisper-medium, mostrando WERs competitivas apesar de ter sido treinado com muito menos dados e com menos parâmetros.
Neste artigo, propomos o AimBot, uma técnica leve de aumento visual que fornece pistas espaciais explícitas para melhorar o aprendizado de políticas visuomotoras em manipulação robótica. O AimBot sobrepõe linhas de tiro e retículos de mira em imagens RGB de múltiplas visões, oferecendo orientação visual auxiliar que codifica o estado do efetuador final. As sobreposições são calculadas a partir de imagens de profundidade, extrínsecos da câmera e a pose atual do efetuador final, transmitindo explicitamente as relações espaciais entre a garra e os objetos na cena. O AimBot gera um custo computacional mínimo (menos de 1 ms) e não requer alterações nas arquiteturas dos modelos, pois simplesmente substitui as imagens RGB originais por versões aumentadas. Apesar de sua simplicidade, nossos resultados mostram que o AimBot melhora consistentemente o desempenho de várias políticas visuomotoras tanto em simulações quanto em ambientes do mundo real, destacando os benefícios do feedback visual fundamentado espacialmente.
Uma mão hábil capaz de agarrar objetos de forma generalizável é fundamental para o desenvolvimento de IA corporificada de propósito geral. No entanto, métodos anteriores focam de forma restrita em métricas de estabilidade de preensão de baixo nível, negligenciando o posicionamento consciente de affordances e poses semelhantes às humanas, que são cruciais para a manipulação subsequente. Para abordar essas limitações, propomos o AffordDex, um novo framework com treinamento em duas etapas que aprende uma política universal de preensão com um entendimento inerente tanto de priors de movimento quanto de affordances de objetos. Na primeira etapa, um imitador de trajetória é pré-treinado em um grande corpus de movimentos da mão humana para incutir um forte prior para movimentos naturais. Na segunda etapa, um módulo residual é treinado para adaptar esses movimentos gerais semelhantes aos humanos a instâncias específicas de objetos. Esse refinamento é criticamente guiado por dois componentes: nosso módulo de Segmentação Consciente de Affordance Negativa (NAA), que identifica regiões de contato funcionalmente inadequadas, e um processo privilegiado de destilação professor-aluno que garante que a política final baseada em visão seja altamente bem-sucedida. Experimentos extensivos demonstram que o AffordDex não apenas alcança a preensão hábil universal, mas também permanece notavelmente semelhante ao humano em postura e funcionalmente apropriado na localização do contato. Como resultado, o AffordDex supera significativamente os baselines state-of-the-art em objetos vistos, instâncias não vistas e até mesmo categorias inteiramente novas.
Apresentamos o primeiro conjunto de ferramentas de avaliação que permite que qualquer modelo de linguagem de grande escala (LLM) local, pronto para uso, jogue Diplomacy no modo completo sem necessidade de ajuste fino ou treinamento especializado. Trabalhos anteriores exigiam LLMs de ponta ou ajuste fino devido à alta complexidade e densidade de informação do estado do jogo de Diplomacy. Combinados com a alta variabilidade das partidas, esses fatores tornavam o estudo de Diplomacy proibitivo. Neste trabalho, utilizamos iteração baseada em dados para otimizar uma representação textual do estado do jogo, de modo que um modelo de 24B possa concluir partidas de forma confiável sem qualquer ajuste fino. Desenvolvemos ferramentas para facilitar testes de hipóteses e análises estatísticas, e apresentamos estudos de caso sobre persuasão, estilos de jogo agressivos e desempenho em uma variedade de modelos. Realizamos diversos experimentos em vários LLMs populares, constatando que os modelos maiores têm o melhor desempenho, mas os modelos menores ainda jogam de forma adequada. Também introduzimos a Análise de Estado Crítico: um protocolo experimental para iterar e analisar rapidamente momentos-chave em um jogo com profundidade. Nosso conjunto de ferramentas democratiza a avaliação do raciocínio estratégico em LLMs ao eliminar a necessidade de ajuste fino, e fornece insights sobre como essas capacidades emergem naturalmente de LLMs amplamente utilizados. Nosso código está disponível no material suplementar e será disponibilizado como código aberto.
Graças ao desenvolvimento de modelos multimodais, a recuperação de vídeo a partir de texto (T2VR) está avançando rapidamente, mas sua robustez permanece amplamente não examinada. Os ataques existentes contra T2VR são projetados para afastar vídeos das consultas, ou seja, suprimir a classificação dos vídeos, enquanto os ataques que aproximam vídeos de consultas selecionadas, ou seja, promover a classificação dos vídeos, permanecem amplamente inexplorados. Esses ataques podem ser mais impactantes, pois os atacantes podem obter mais visualizações/cliques para benefícios financeiros e disseminação de (des)informação. Para isso, pioneiramente, propomos o primeiro ataque contra T2VR para promover vídeos de forma adversária, denominado Ataque de Promoção de Vídeo (ViPro). Além disso, propomos o Refinamento Modal (MoRe) para capturar a interação mais refinada e intrincada entre as modalidades visual e textual, a fim de melhorar a transferibilidade em cenários de caixa-preta. Experimentos abrangentes cobrem 2 baselines existentes, 3 modelos líderes de T2VR, 3 conjuntos de dados predominantes com mais de 10 mil vídeos, avaliados em 3 cenários. Todos os experimentos são conduzidos em um ambiente de múltiplos alvos para refletir cenários realistas onde os atacantes buscam promover o vídeo em relação a múltiplas consultas simultaneamente. Também avaliamos nossos ataques em termos de defesas e imperceptibilidade. No geral, o ViPro supera outras baselines em mais de 30/10/4% em média para configurações de caixa branca/cinza/preta. Nosso trabalho destaca uma vulnerabilidade negligenciada, fornece uma análise qualitativa sobre os limites superior/inferior de nossos ataques e oferece insights sobre possíveis contramedidas. O código estará publicamente disponível em https://github.com/michaeltian108/ViPro.
Assistentes de codificação baseados em IA, como o GitHub Copilot, estão transformando rapidamente o desenvolvimento de software, mas sua segurança permanece profundamente incerta, especialmente em domínios de alto risco, como a cibersegurança. As ferramentas atuais de red teaming frequentemente dependem de benchmarks fixos ou prompts irreais, deixando passar muitas vulnerabilidades do mundo real. Apresentamos o ASTRA, um sistema de agente automatizado projetado para descobrir sistematicamente falhas de segurança em sistemas de geração de código e orientação de segurança impulsionados por IA. O ASTRA opera em três etapas: (1) constrói grafos de conhecimento estruturados e específicos do domínio que modelam tarefas complexas de software e vulnerabilidades conhecidas; (2) realiza uma exploração online de vulnerabilidades de cada modelo alvo, sondando adaptativamente tanto seu espaço de entrada, ou seja, a exploração espacial, quanto seus processos de raciocínio, ou seja, a exploração temporal, guiado pelos grafos de conhecimento; e (3) gera casos de alta qualidade que induzem violações para melhorar o alinhamento do modelo. Diferente de métodos anteriores, o ASTRA foca em entradas realistas—solicitações que desenvolvedores realmente poderiam fazer—e usa tanto a modelagem de domínio guiada por abstração offline quanto a adaptação online do grafo de conhecimento do domínio para revelar vulnerabilidades em casos extremos. Em dois grandes domínios de avaliação, o ASTRA encontra 11-66% mais problemas do que as técnicas existentes e produz casos de teste que resultam em um treinamento de alinhamento 17% mais eficaz, demonstrando seu valor prático para a construção de sistemas de IA mais seguros.
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis em diversos domínios, com a geração de código emergindo como uma área-chave de foco. Embora diversos benchmarks tenham sido propostos para avaliar suas habilidades de geração de código, esses benchmarks enfrentam várias limitações críticas. Primeiro, eles frequentemente dependem de anotações manuais, que são demoradas e difíceis de escalar para diferentes linguagens de programação e complexidades de problemas. Segundo, a maioria dos benchmarks existentes foca principalmente em Python, enquanto os poucos benchmarks multilíngues sofrem com dificuldade limitada e distribuição desigual de linguagens. Para abordar esses desafios, propomos o AutoCodeGen, um método automatizado para gerar conjuntos de dados de geração de código multilíngue de alta dificuldade sem anotações manuais. O AutoCodeGen garante a correção e completude dos casos de teste ao gerar entradas de teste com LLMs e obter saídas de teste por meio de um sandbox multilíngue, enquanto alcança alta qualidade de dados através da geração de problemas em ordem reversa e múltiplas etapas de filtragem. Usando esse método inovador, introduzimos o AutoCodeBench, um benchmark de geração de código em larga escala composto por 3.920 problemas distribuídos uniformemente em 20 linguagens de programação. Ele foi especificamente projetado para avaliar LLMs em tarefas multilíngues desafiadoras, diversas e práticas. Avaliamos mais de 30 LLMs líderes, tanto de código aberto quanto proprietários, no AutoCodeBench e em sua versão simplificada, o AutoCodeBench-Lite. Os resultados mostram que mesmo os LLMs mais avançados têm dificuldades com a complexidade, diversidade e natureza multilíngue dessas tarefas. Além disso, introduzimos o AutoCodeBench-Complete, especificamente projetado para modelos base, a fim de avaliar suas capacidades de geração de código em poucos exemplos. Esperamos que a série AutoCodeBench sirva como um recurso valioso e inspire a comunidade a focar em cenários de geração de código multilíngue mais desafiadores e práticos.
Embora os modelos de linguagem de grande escala estejam se tornando cada vez mais capazes, ainda é irracional esperar que eles se destaquem em tarefas que são sub-representadas na Internet. Aproveitar LLMs para aplicações especializadas, particularmente em linguagens de programação de nicho e domínios privados, continua desafiador e em grande parte não resolvido. Neste trabalho, abordamos essa lacuna apresentando uma abordagem abrangente e de código aberto para adaptar LLMs à linguagem de programação Q, uma ferramenta popular em finanças quantitativas que está muito menos presente na Internet em comparação com Python, C, Java e outras linguagens "mainstream" e, portanto, não é um ponto forte de modelos de IA de propósito geral. Introduzimos um novo conjunto de dados de avaliação no estilo Leetcode para Q, avaliamos os principais modelos de fronteira no conjunto de dados, e então realizamos pré-treinamento, ajuste fino supervisionado e aprendizado por reforço para treinar uma série de modelos de raciocínio e não raciocínio baseados na série Qwen-2.5, abrangendo cinco tamanhos de parâmetros (1.5B, 3B, 7B, 14B, 32B). Nosso melhor modelo alcança uma precisão pass@1 de 59% em nosso benchmark Q, superando o modelo de fronteira de melhor desempenho, Claude Opus-4, em 29,5%. Além disso, todos os modelos, mesmo nosso modelo de 1.5B, superam o GPT-4.1 nessa tarefa. Além de liberar modelos, código e dados, fornecemos um plano detalhado para a construção de conjuntos de dados, pré-treinamento de modelos, ajuste fino supervisionado e aprendizado por reforço. Nossa metodologia é amplamente aplicável, e discutimos como essas técnicas podem ser estendidas para outras tarefas, incluindo aquelas em que a avaliação pode depender de sinais suaves ou subjetivos.
A tarefa de transferência de estilo para splats Gaussianos 3D foi explorada em muitos trabalhos anteriores, mas esses exigem a reconstrução ou ajuste fino do splat enquanto incorporam informações de estilo ou otimizam uma rede de extração de características na representação do splat. Propomos uma abordagem livre de reconstrução e otimização para estilizar splats Gaussianos 3D. Isso é feito gerando uma estrutura de gráfico através da superfície implícita da representação do splat. Um método de estilização baseado em superfície e de avanço direto é então utilizado e interpolado de volta para os splats individuais na cena. Isso permite que qualquer imagem de estilo e splat Gaussiano 3D sejam usados sem qualquer treinamento ou otimização adicional. Isso também permite uma estilização rápida dos splats, alcançando velocidades inferiores a 2 minutos, mesmo em hardware de nível consumidor. Demonstramos os resultados de qualidade que essa abordagem alcança e comparamos com outros métodos de transferência de estilo para splats Gaussianos 3D. O código está publicamente disponível em https://github.com/davidmhart/FastSplatStyler.
A capacidade de aprendizado contínuo dos grandes modelos de linguagem (LLMs) é crucial para o avanço da inteligência artificial geral. No entanto, o ajuste fino contínuo de LLMs em diversos domínios frequentemente sofre com o esquecimento catastrófico, caracterizado por: 1) esquecimento significativo de suas capacidades gerais, e 2) declínios acentuados no desempenho em tarefas previamente aprendidas. Para abordar simultaneamente ambos os problemas de maneira simples e estável, propomos o General Sample Replay (GeRe), um framework que utiliza textos comuns de pré-treinamento para uma eficiente prevenção do esquecimento. Além de revisitar as práticas mais prevalentes baseadas em replay sob o GeRe, nós ainda aproveitamos estados neurais para introduzir um método aprimorado de otimização restrita de estados de ativação, utilizando uma função de perda baseada em margem com limiar (TM), que mantém a consistência dos estados de ativação durante o aprendizado por replay. Somos os primeiros a validar que um pequeno conjunto fixo de amostras gerais de replay pré-coletadas é suficiente para resolver ambas as preocupações—manter as capacidades gerais enquanto promove o desempenho geral em tarefas sequenciais. De fato, o primeiro pode inerentemente facilitar o segundo. Por meio de experimentos controlados, comparamos sistematicamente o TM com diferentes estratégias de replay sob o framework GeRe, incluindo ajuste simples de rótulos, imitação de logits via divergência KL e imitação de características via perdas L1/L2. Os resultados demonstram que o TM consistentemente melhora o desempenho e exibe maior robustez. Nosso trabalho abre caminho para o replay eficiente de LLMs no futuro. Nosso código e dados estão disponíveis em https://github.com/Qznan/GeRe.
Os LLMs (Modelos de Linguagem de Grande Escala) têm demonstrado bom desempenho em tradução automática (MT) com o uso de aprendizado em contexto (ICL), rivalizando com modelos supervisionados ao traduzir para idiomas de alta disponibilidade de recursos (HRLs). No entanto, eles ficam aquém ao traduzir para idiomas de baixa disponibilidade de recursos (LRLs). A seleção de exemplos por meio de busca de similaridade e ajuste fino supervisionado ajudam, mas as melhorias que proporcionam são limitadas pelo tamanho, qualidade e diversidade dos conjuntos de dados paralelos existentes. Uma técnica comum em MT de baixa disponibilidade de recursos é a criação de dados paralelos sintéticos, sendo a mais frequente a retro-tradução, na qual textos existentes no idioma de destino são automaticamente traduzidos para o idioma de origem. No entanto, isso pressupõe a existência de textos de alta qualidade e relevantes no idioma de destino, que não estão prontamente disponíveis para muitos LRLs. Neste artigo, apresentamos o TopXGen, uma abordagem baseada em LLM para a geração de dados de alta qualidade e diversidade temática em múltiplos LRLs, que podem então ser retro-traduzidos para produzir textos paralelos úteis e diversos para ICL e ajuste fino. Nossa intuição é que, embora os LLMs tenham dificuldade em traduzir para LRLs, sua capacidade de traduzir bem para HRLs e sua multilingüidade permitem que gerem textos de destino de boa qualidade e naturais, que podem ser bem traduzidos para um idioma de origem de alta disponibilidade de recursos. Mostramos que o TopXGen melhora o desempenho de tradução dos LLMs durante o ajuste fino e o aprendizado em contexto. O código e as saídas estão disponíveis em https://github.com/ArmelRandy/topxgen.
A implementação da teoria dos jogos quânticos em hardware real é desafiadora devido ao ruído, à decoerência e à conectividade limitada de qubits, mas tais demonstrações são essenciais para validar previsões teóricas. Apresentamos uma das primeiras realizações experimentais completas do jogo Batalha dos Sexos no framework de Eisert-Wilkens-Lewenstein (EWL) no processador supercondutor ibm_sherbrooke da IBM Quantum. Quatro estratégias quânticas (I, H, R(pi/4), R(pi)) foram avaliadas em 31 valores de entrelaçamento gamma em [0, pi], utilizando 2048 execuções por configuração, permitindo uma comparação direta entre previsões analíticas e execução em hardware. Para mitigar ruído e variabilidade, introduzimos um método de Mapeamento de Circuito Guiado (GCM) que seleciona dinamicamente pares de qubits e otimiza o roteamento com base em dados de topologia e calibração em tempo real. O modelo analítico prevê uma melhoria de até 108% no payoff em relação ao equilíbrio clássico, e, apesar de desvios induzidos pelo hardware, os resultados experimentais com GCM preservam as tendências esperadas de payoff com erro relativo de 3,5%-12%. Esses achados mostram que vantagens quânticas na coordenação estratégica podem persistir sob condições realistas de NISQ, fornecendo um caminho para aplicações práticas da teoria dos jogos quânticos em sistemas multiagente, econômicos e de tomada de decisão distribuída.
Os glóbulos vermelhos (hemácias) são essenciais para a saúde humana, e sua análise morfológica precisa é importante para o diagnóstico de distúrbios hematológicos. Apesar do potencial dos modelos de base (foundation models) no diagnóstico médico, soluções abrangentes de IA para análise de hemácias ainda são escassas. Apresentamos o RedDino, um modelo de base auto-supervisionado projetado para análise de imagens de hemácias. O RedDino utiliza uma adaptação específica para hemácias do framework de aprendizado auto-supervisionado DINOv2 e foi treinado em um conjunto de dados curado de 1,25 milhão de imagens de hemácias provenientes de diversas modalidades e fontes de aquisição. Avaliações extensivas mostram que o RedDino supera os modelos state-of-the-art existentes na classificação de formas de hemácias. Por meio de avaliações que incluem sondagem linear e classificação por vizinho mais próximo, confirmamos suas representações de características robustas e capacidade de generalização. Nossas principais contribuições são: (1) um modelo de base especializado para análise de hemácias, (2) estudos de ablação explorando configurações do DINOv2 para modelagem de hemácias, e (3) uma avaliação detalhada do desempenho de generalização. O RedDino aborda desafios-chave na hematologia computacional ao capturar características morfológicas sutis, avançando o desenvolvimento de ferramentas de diagnóstico confiáveis. O código-fonte e os modelos pré-treinados do RedDino estão disponíveis em https://github.com/Snarci/RedDino, e os modelos pré-treinados podem ser baixados de nossa coleção no Hugging Face em https://huggingface.co/collections/Snarcy/reddino-689a13e29241d2e5690202fc.
Compreender os vieses e estereótipos codificados nos pesos dos Modelos de Linguagem de Grande Escala (LLMs) é crucial para o desenvolvimento de estratégias eficazes de mitigação. O comportamento tendencioso é frequentemente sutil e não trivial de isolar, mesmo quando deliberadamente eliciado, tornando a análise sistemática e a remoção de vieses particularmente desafiadoras. Para abordar isso, introduzimos o BiasGym, uma estrutura simples, econômica e generalizável para injetar, analisar e mitigar de forma confiável associações conceituais dentro dos LLMs. O BiasGym consiste em dois componentes: o BiasInject, que injeta vieses específicos no modelo por meio de ajuste fino baseado em tokens enquanto mantém o modelo congelado, e o BiasScope, que aproveita esses sinais injetados para identificar e direcionar os componentes responsáveis pelo comportamento tendencioso. Nosso método permite a eliciação consistente de vieses para análise mecanicista, suporta a remoção de vieses direcionada sem degradar o desempenho em tarefas subsequentes e generaliza para vieses não vistos durante o treinamento. Demonstramos a eficácia do BiasGym na redução de estereótipos do mundo real (por exemplo, pessoas de um país serem "motoristas imprudentes") e na investigação de associações fictícias (por exemplo, pessoas de um país terem "pele azul"), mostrando sua utilidade tanto para intervenções de segurança quanto para pesquisas de interpretabilidade.
A urbanização, as mudanças climáticas e o estresse agrícola estão aumentando a demanda por monitoramento ambiental preciso e oportuno. A Temperatura da Superfície Terrestre (LST) é uma variável fundamental nesse contexto e é obtida a partir de satélites de sensoriamento remoto. No entanto, esses sistemas enfrentam um trade-off entre resolução espacial e temporal. Embora os métodos de fusão espaço-temporal ofereçam soluções promissoras, poucos abordaram a estimativa diária de LST com resolução de 10 m. Neste estudo, apresentamos o WGAST, uma Rede Generativa com Aprendizado Fracamente Supervisionado para Estimativa Diária de LST em 10 m via Fusão Espaço-Temporal de dados do Terra MODIS, Landsat 8 e Sentinel-2. O WGAST é o primeiro framework de aprendizado profundo end-to-end projetado para essa tarefa. Ele adota uma arquitetura generativa adversarial condicional, com um gerador composto por quatro estágios: extração de características, fusão, reconstrução de LST e supressão de ruído. O primeiro estágio emprega um conjunto de codificadores para extrair representações latentes de múltiplos níveis a partir das entradas, que são então fundidas no segundo estágio usando similaridade de cosseno, normalização e mecanismos de atenção temporal. O terceiro estágio decodifica as características fundidas em LST de alta resolução, seguido por um filtro Gaussiano para suprimir ruídos de alta frequência. O treinamento segue uma estratégia de aprendizado fracamente supervisionado baseada em princípios de média física e reforçada por um discriminador PatchGAN. Experimentos demonstram que o WGAST supera os métodos existentes em avaliações quantitativas e qualitativas. Em comparação com a linha de base de melhor desempenho, em média, o WGAST reduz o RMSE em 17,18% e melhora o SSIM em 11,00%. Além disso, o WGAST é robusto a LST induzida por nuvens e captura efetivamente padrões térmicos em escala fina, conforme validado por 33 sensores terrestres. O código está disponível em https://github.com/Sofianebouaziz1/WGAST.git.
Vocalizações paralinguísticas - incluindo sons não verbais como risos e respirações, bem como interjeições lexicalizadas como "uhm" e "oh" - são fundamentais para a comunicação falada natural. Apesar de sua importância na transmissão de afeto, intenção e sinais interacionais, tais pistas permanecem amplamente negligenciadas nos sistemas convencionais de reconhecimento automático de fala (ASR) e de conversão de texto em fala (TTS). Apresentamos o NVSpeech, um pipeline integrado e escalável que conecta o reconhecimento e a síntese de vocalizações paralinguísticas, abrangendo a construção de conjuntos de dados, modelagem ASR e TTS controlável. (1) Introduzimos um conjunto de dados anotado manualmente com 48.430 enunciados falados por humanos, contendo 18 categorias paralinguísticas em nível de palavra. (2) Desenvolvemos o modelo ASR consciente de paralinguagem, que trata pistas paralinguísticas como tokens decodificáveis inline (por exemplo, "Você é tão engraçado [Riso]"), permitindo a transcrição conjunta de elementos lexicais e não verbais. Esse modelo é então usado para anotar automaticamente um grande corpus, o primeiro conjunto de dados em larga escala em chinês com 174.179 enunciados (573 horas) com alinhamento em nível de palavra e pistas paralinguísticas. (3) Ajustamos modelos TTS zero-shot em dados anotados manualmente e automaticamente para permitir controle explícito sobre vocalizações paralinguísticas, possibilitando a inserção contextualizada em posições arbitrárias de tokens para síntese de fala natural. Ao unificar o reconhecimento e a geração de vocalizações paralinguísticas, o NVSpeech oferece o primeiro pipeline aberto, em larga escala e anotado em nível de palavra para modelagem de fala expressiva em mandarim, integrando reconhecimento e síntese de forma escalável e controlável. O conjunto de dados e demonstrações de áudio estão disponíveis em https://nvspeech170k.github.io/.
Os benchmarks atuais de raciocínio matemático para modelos de linguagem de grande escala (LLMs) estão se aproximando da saturação, com alguns alcançando precisão > 90%, e estão cada vez mais comprometidos pela contaminação do conjunto de treinamento. Apresentamos o Putnam-AXIOM, um benchmark composto por 522 problemas de nível universitário extraídos do prestigiado William Lowell Putnam Mathematical Competition, e o Putnam-AXIOM Variation, um conjunto complementar inédito de 100 variantes funcionais geradas pela perturbação programática de variáveis e constantes. O protocolo de variação produz um fluxo ilimitado de instâncias igualmente difíceis e inéditas — resultando em um ambiente de teste resiliente à contaminação. No conjunto Original, o o1-preview da OpenAI — o modelo mais forte avaliado — alcança 41,9% de precisão, mas sua precisão cai 19,6% (redução relativa de 46,8%) nas Variações emparelhadas. Os dezoito modelos restantes mostram a mesma tendência de queda, com dez deles apresentando intervalos de confiança de 95% não sobrepostos. Essas lacunas sugerem memorização e destacam a necessidade de benchmarks dinâmicos. Complementamos a precisão "encaixotada" com a Teacher-Forced Accuracy (TFA), uma métrica leve que pontua diretamente os traços de raciocínio e automatiza a avaliação de provas em linguagem natural. O Putnam-AXIOM, portanto, fornece uma estrutura de avaliação rigorosa e resiliente à contaminação para avaliar o raciocínio matemático avançado de LLMs. Os dados e o código de avaliação estão disponíveis publicamente em https://github.com/brando90/putnam-axiom.
A superfície da Terra está em constante mudança, e a detecção dessas mudanças fornece insights valiosos que beneficiam diversos aspectos da sociedade humana. Embora métodos tradicionais de detecção de mudanças tenham sido empregados para identificar alterações em imagens bi-temporais, essas abordagens geralmente exigem conhecimento especializado para uma interpretação precisa. Para permitir um acesso mais amplo e flexível às informações de mudança por usuários não especialistas, a tarefa de Visual Question Answering para Detecção de Mudanças (CDVQA) foi introduzida. No entanto, os métodos existentes de CDVQA foram desenvolvidos sob a suposição de que os conjuntos de dados de treinamento e teste compartilham distribuições semelhantes. Essa suposição não se mantém em aplicações do mundo real, onde mudanças de domínio frequentemente ocorrem. Neste artigo, a tarefa de CDVQA é revisitada com foco na abordagem de mudanças de domínio. Para tanto, um novo conjunto de dados multimodal e multidomínio, BrightVQA, é introduzido para facilitar a pesquisa em generalização de domínio em CDVQA. Além disso, um novo modelo de espaço de estados, denominado Modelo de Espaço de Estados Condicionado por Texto (TCSSM), é proposto. O framework TCSSM foi projetado para aproveitar tanto imagens bi-temporais quanto informações textuais relacionadas a geo-desastres de maneira unificada, extraindo características invariantes ao domínio. Parâmetros dependentes da entrada existentes no TCSSM são dinamicamente previstos usando tanto imagens bi-temporais quanto descrições relacionadas a geo-desastres, facilitando assim o alinhamento entre dados visuais bi-temporais e as descrições textuais associadas. Experimentos extensivos foram conduzidos para avaliar o método proposto em comparação com modelos state-of-the-art, e um desempenho superior foi consistentemente demonstrado. O código e o conjunto de dados serão disponibilizados publicamente após a aceitação em https://github.com/Elman295/TCSSM.
A transferência de estilo artístico tem sido possível há muito tempo com os avanços das redes neurais baseadas em convoluções e transformadores. A maioria dos algoritmos aplica a transferência de estilo artístico a toda a imagem, mas usuários individuais podem precisar aplicar a transferência de estilo apenas a uma região específica da imagem. A prática padrão é simplesmente mascarar a imagem após a estilização. Este trabalho mostra que essa abordagem tende a capturar incorretamente as características de estilo na região de interesse. Propomos uma rede de transferência de estilo baseada em convolução parcial que aplica com precisão as características de estilo exclusivamente à região de interesse. Além disso, apresentamos técnicas de mesclagem interna à rede que levam em consideração imperfeições na seleção da região. Demonstramos que isso melhora visual e quantitativamente a estilização usando exemplos do conjunto de dados SA-1B. O código está disponível publicamente em https://github.com/davidmhart/StyleTransferMasked.