Artigos de pesquisa em IA selecionados diariamente com traduções
A OCR de documentos em árabe continua sendo uma tarefa desafiadora devido à escrita cursiva da língua, às diversas fontes, aos diacríticos e à orientação da direita para a esquerda. Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) modernos tenham avançado na compreensão de documentos para idiomas de alta disponibilidade de recursos, seu desempenho no árabe ainda é limitado. Neste trabalho, apresentamos o Baseer, um modelo de visão e linguagem ajustado especificamente para OCR de documentos em árabe. Utilizando um conjunto de dados em larga escala que combina documentos sintéticos e do mundo real, o Baseer é treinado com uma estratégia de ajuste fino apenas do decodificador para adaptar um MLLM pré-treinado, preservando as características visuais gerais. Também apresentamos o Misraj-DocOCR, um benchmark de alta qualidade verificado por especialistas, projetado para avaliação rigorosa de sistemas de OCR em árabe. Nossos experimentos mostram que o Baseer supera significativamente as soluções de código aberto e comerciais existentes, alcançando uma Taxa de Erro de Palavras (WER) de 0,25 e estabelecendo um novo estado da arte no domínio da OCR de documentos em árabe. Nossos resultados destacam os benefícios da adaptação específica de domínio de MLLMs de propósito geral e estabelecem uma base sólida para OCR de alta precisão em idiomas morfologicamente ricos, como o árabe.
A crescente disparidade entre a escalabilidade exponencial dos recursos computacionais e o crescimento limitado de dados textuais de alta qualidade agora restringe as abordagens convencionais de escalonamento para grandes modelos de linguagem (LLMs, na sigla em inglês). Para enfrentar esse desafio, introduzimos o Aprendizado por Reforço em Dados de Pré-treinamento (RLPT, na sigla em inglês), um novo paradigma de escalonamento durante o treinamento para otimizar LLMs. Em contraste com abordagens anteriores que escalonam o treinamento principalmente por meio de aprendizado supervisionado, o RLPT permite que a política explore autonomamente trajetórias significativas para aprender a partir de dados de pré-treinamento e aprimorar sua capacidade por meio de aprendizado por reforço (RL, na sigla em inglês). Enquanto estratégias existentes de RL, como o aprendizado por reforço com feedback humano (RLHF, na sigla em inglês) e o aprendizado por reforço com recompensas verificáveis (RLVR, na sigla em inglês), dependem de anotações humanas para a construção de recompensas, o RLPT elimina essa dependência ao derivar sinais de recompensa diretamente dos dados de pré-treinamento. Especificamente, ele adota um objetivo de raciocínio de segmento seguinte, recompensando a política por prever com precisão segmentos de texto subsequentes condicionados ao contexto anterior. Essa formulação permite que o RL seja escalonado em dados de pré-treinamento, incentivando a exploração de trajetórias mais ricas em contextos mais amplos e, assim, promovendo habilidades de raciocínio mais generalizáveis. Experimentos extensos em benchmarks de raciocínio geral e matemático em vários modelos validam a eficácia do RLPT. Por exemplo, quando aplicado ao Qwen3-4B-Base, o RLPT resulta em melhorias absolutas de 3,0, 5,1, 8,1, 6,0, 6,6 e 5,3 no MMLU, MMLU-Pro, GPQA-Diamond, KOR-Bench, AIME24 e AIME25, respectivamente. Os resultados demonstram ainda um comportamento favorável de escalonamento, sugerindo um forte potencial para ganhos contínuos com mais recursos computacionais. Além disso, o RLPT fornece uma base sólida, estendendo os limites de raciocínio dos LLMs e aprimorando o desempenho do RLVR.
Políticas visuomotoras baseadas em aprendizado por imitação têm sido amplamente utilizadas na manipulação robótica, onde tanto observações visuais quanto estados proprioceptivos são tipicamente adotados em conjunto para um controle preciso. No entanto, neste estudo, descobrimos que essa prática comum torna a política excessivamente dependente da entrada do estado proprioceptivo, o que causa sobreajuste às trajetórias de treinamento e resulta em uma generalização espacial ruim. Pelo contrário, propomos a Política Livre de Estado, removendo a entrada do estado proprioceptivo e prevendo ações condicionadas apenas às observações visuais. A Política Livre de Estado é construída no espaço de ação relativa do efetuador final e deve garantir as observações visuais completas relevantes para a tarefa, aqui fornecidas por duas câmeras de ângulo amplo no pulso. Resultados empíricos demonstram que a política livre de estado alcança uma generalização espacial significativamente mais forte do que a política baseada em estado: em tarefas do mundo real, como pegar e colocar, dobragem desafiadora de camisas e manipulação complexa de todo o corpo, abrangendo múltiplas configurações robóticas, a taxa média de sucesso melhora de 0% para 85% na generalização de altura e de 6% para 64% na generalização horizontal. Além disso, elas também mostram vantagens em eficiência de dados e adaptação cruzada entre configurações, aumentando sua praticidade para implantação no mundo real.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) estão passando por um progresso acelerado e representam a fronteira do desenvolvimento de IA. No entanto, a eficiência de treinamento e inferência desses modelos emergiu como um gargalo central para torná-los mais acessíveis e escaláveis. Para enfrentar esses desafios, apresentamos o MiniCPM-V 4.5, um modelo de 8 bilhões de parâmetros projetado para alta eficiência e desempenho robusto. Introduzimos três melhorias centrais na arquitetura do modelo, estratégia de dados e método de treinamento: uma arquitetura de modelo 3D-Resampler unificada para codificação altamente compacta de imagens e vídeos, um paradigma de aprendizado unificado para conhecimento de documentos e reconhecimento de texto sem a necessidade de engenharia de dados pesada, e uma estratégia híbrida de aprendizado por reforço para proficiência em modos de raciocínio curtos e longos. Resultados experimentais abrangentes na avaliação OpenCompass mostram que o MiniCPM-V 4.5 supera modelos proprietários amplamente utilizados, como o GPT-4o-latest, e modelos de código aberto significativamente maiores, como o Qwen2.5-VL 72B. Notavelmente, o forte desempenho é alcançado com eficiência notável. Por exemplo, no benchmark amplamente adotado VideoMME, o MiniCPM-V 4.5 atinge desempenho de ponta entre modelos com menos de 30 bilhões de parâmetros, utilizando apenas 46,7% do custo de memória GPU e 8,7% do tempo de inferência do Qwen2.5-VL 7B.
Compreender e raciocinar sobre repositórios de software inteiros é uma capacidade essencial para ferramentas de engenharia de software inteligentes. Embora benchmarks existentes, como CoSQA e CodeQA, tenham avançado o campo, eles se concentram predominantemente em trechos de código pequenos e autossuficientes. Essas configurações não capturam a complexidade dos repositórios do mundo real, onde a compreensão e o raciocínio eficazes frequentemente exigem navegar por vários arquivos, entender a arquitetura do software e fundamentar respostas em dependências de código de longo alcance. Neste artigo, apresentamos o SWE-QA, um benchmark de questionamento e resposta (QA) em nível de repositório projetado para facilitar a pesquisa em sistemas automatizados de QA em ambientes de código realistas. O SWE-QA envolve 576 pares de perguntas e respostas de alta qualidade, abrangendo diversas categorias, incluindo compreensão de intenção, raciocínio entre arquivos e análise de dependências multi-hop. Para construir o SWE-QA, primeiro rastreamos 77.100 issues do GitHub de 11 repositórios populares. Com base em uma análise das perguntas naturalmente ocorrentes de desenvolvedores extraídas dessas issues, desenvolvemos uma taxonomia de dois níveis para perguntas em nível de repositório e construímos um conjunto de perguntas iniciais para cada categoria. Para cada categoria, curamos e validamos manualmente as perguntas e coletamos suas respostas correspondentes. Como aplicação protótipo, desenvolvemos ainda o SWE-QA-Agent, um framework agentic no qual agentes de LLM raciocinam e agem para encontrar respostas automaticamente. Avaliamos seis LLMs avançados no SWE-QA sob várias estratégias de ampliação de contexto. Os resultados experimentais destacam o potencial dos LLMs, particularmente nosso framework SWE-QA-Agent, em abordar QA em nível de repositório, ao mesmo tempo em que revelam desafios em aberto e apontam direções futuras de pesquisa.
O Raciocínio Visual Espacial (VSR) é uma capacidade cognitiva humana fundamental e um requisito crítico para o avanço da inteligência incorporada e de sistemas autônomos. Apesar dos recentes progressos nos Modelos de Visão e Linguagem (VLMs), alcançar um nível humano de VSR continua sendo altamente desafiador devido à complexidade de representar e raciocinar sobre o espaço tridimensional. Neste artigo, apresentamos uma investigação sistemática do VSR em VLMs, abrangendo uma revisão das metodologias existentes em modalidades de entrada, arquiteturas de modelos, estratégias de treinamento e mecanismos de raciocínio. Além disso, categorizamos a inteligência espacial em três níveis de capacidade, ou seja, percepção básica, compreensão espacial, planejamento espacial, e criamos o SIBench, um benchmark de inteligência espacial que engloba quase 20 conjuntos de dados de código aberto em 23 configurações de tarefas. Experimentos com VLMs de última geração revelam uma lacuna pronunciada entre percepção e raciocínio, já que os modelos demonstram competência em tarefas perceptivas básicas, mas consistentemente têm desempenho inferior em tarefas de compreensão e planejamento, particularmente em estimativa numérica, raciocínio multivisão, dinâmica temporal e imaginação espacial. Essas descobertas destacam os desafios substanciais que permanecem para alcançar a inteligência espacial, ao mesmo tempo em que fornecem um roteiro sistemático e um benchmark abrangente para impulsionar pesquisas futuras na área. Os recursos relacionados a este estudo estão acessíveis em https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/.
Os recentes avanços no aprendizado por reforço para modelos de base, como a Otimização de Política Relativa de Grupo (Group Relative Policy Optimization - GRPO), melhoraram significativamente o desempenho de modelos de base em tarefas de raciocínio. Notavelmente, a função de vantagem serve como um mecanismo central na GRPO para classificar a importância da trajetória. No entanto, as explorações existentes enfrentam tanto o problema de reversão de vantagem quanto o problema de espelhamento de vantagem, que dificultam a alocação razoável de vantagem entre diferentes amostras de consulta. Neste trabalho, propomos uma estratégia GRPO simples, mas eficaz, chamada Otimização de Política de Vantagem Mista (Mixed Advantage Policy Optimization - MAPO). Revelamos que a trajetória aparece com diferentes níveis de certeza e propomos o desvio percentual de vantagem para amostras com trajetórias de alta certeza. Além disso, reajustamos dinamicamente a função de vantagem para amostras com variados níveis de certeza da trajetória, configurando assim a função de vantagem de forma adaptativa para considerar características específicas de cada amostra. A comparação com métodos relacionados de última geração, juntamente com estudos de ablação sobre diferentes variantes de vantagem, valida a eficácia da nossa abordagem.
O método Feed-forward 3D Gaussian Splatting (3DGS) surgiu como uma solução altamente eficaz para a síntese de novas visões. Os métodos existentes dependem predominantemente de um paradigma de predição de Gaussianas alinhadas por pixel, onde cada pixel 2D é mapeado para uma Gaussiana 3D. Repensamos essa formulação amplamente adotada e identificamos várias limitações inerentes: ela torna os modelos 3D reconstruídos fortemente dependentes do número de visões de entrada, leva a distribuições de densidade tendenciosas em relação à visão e introduz erros de alinhamento, especialmente quando as visões de origem contêm oclusões ou baixa textura. Para enfrentar esses desafios, introduzimos o VolSplat, um novo paradigma feed-forward multi-visão que substitui o alinhamento por pixel por Gaussianas alinhadas por voxel. Ao prever diretamente Gaussianas a partir de uma grade de voxels 3D prevista, ele supera a dependência do alinhamento por pixel em relação à correspondência de características 2D propensa a erros, garantindo consistência robusta entre múltiplas visões. Além disso, ele permite o controle adaptativo da densidade das Gaussianas com base na complexidade da cena 3D, resultando em nuvens de pontos Gaussianas mais fiéis, melhor consistência geométrica e qualidade aprimorada na renderização de novas visões. Experimentos em benchmarks amplamente utilizados, como RealEstate10K e ScanNet, demonstram que o VolSplat alcança desempenho de ponta enquanto produz reconstruções Gaussianas mais plausíveis e consistentes em relação à visão. Além de resultados superiores, nossa abordagem estabelece uma estrutura mais escalável para reconstrução 3D feed-forward com representações mais densas e robustas, abrindo caminho para pesquisas adicionais em comunidades mais amplas. Os resultados em vídeo, código e modelos treinados estão disponíveis em nossa página do projeto: https://lhmd.top/volsplat.
A capacidade de gerar ambientes virtuais é crucial para aplicações que vão desde jogos até domínios de IA física, como robótica, direção autônoma e IA industrial. Os métodos atuais de reconstrução 3D baseados em aprendizado dependem da disponibilidade de dados multivista capturados do mundo real, que nem sempre estão prontamente disponíveis. Avanços recentes em modelos de difusão de vídeo demonstraram capacidades impressionantes de imaginação, mas sua natureza 2D limita as aplicações em simulações onde um robô precisa navegar e interagir com o ambiente. Neste artigo, propomos um framework de autodistilação que visa destilar o conhecimento implícito 3D presente nos modelos de difusão de vídeo em uma representação explícita de 3D Gaussian Splatting (3DGS), eliminando a necessidade de dados multivista para treinamento. Especificamente, aumentamos o decodificador RGB típico com um decodificador 3DGS, que é supervisionado pela saída do decodificador RGB. Nessa abordagem, o decodificador 3DGS pode ser treinado exclusivamente com dados sintéticos gerados por modelos de difusão de vídeo. No momento da inferência, nosso modelo pode sintetizar cenas 3D a partir de um prompt de texto ou de uma única imagem para renderização em tempo real. Nosso framework ainda se estende para a geração dinâmica de cenas 3D a partir de um vídeo monocular de entrada. Resultados experimentais mostram que nosso framework alcança desempenho de ponta na geração de cenas 3D estáticas e dinâmicas.
Modelos de raciocínio de grande escala (LRMs) gastam uma quantidade substancial de computação durante o teste em longas cadeias de pensamento (CoT), mas o que *caracteriza* uma CoT eficaz ainda não está claro. Embora trabalhos anteriores relatem ganhos ao alongar as CoTs e aumentar a revisão (revisitando etapas anteriores) por meio de tokens de *espera* adicionados, estudos recentes sugerem que pensamentos mais curtos podem superar traços mais longos. Portanto, realizamos uma avaliação sistemática em dez LRMs para raciocínio matemático e científico. Contrariando a narrativa de "quanto mais longo, melhor", descobrimos que tanto o alongamento ingênuo das CoTs quanto o aumento da revisão estão associados a uma precisão *menor*. À medida que a CoT se desdobra passo a passo, métricas em nível de token podem confundir verbosidade com qualidade do processo. Introduzimos uma visão em grafo da CoT para extrair estrutura e identificar uma única estatística - a *Fração de Passos Falhos (FSF)*, a fração de etapas em ramos abandonados - que consistentemente supera o comprimento e a taxa de revisão na previsão de correção entre os modelos. Para investigar a causalidade, projetamos duas intervenções. Primeiro, classificamos as CoTs candidatas por cada métrica no momento do teste, onde a FSF produz os maiores ganhos em pass@1; segundo, editamos as CoTs para remover ramos falhos, o que melhora significativamente a precisão, indicando que ramos falhos enviesam o raciocínio subsequente. Juntos, esses resultados caracterizam CoTs eficazes como aquelas que *falham menos* e apoiam a escalabilidade no momento do teste *consciente da estrutura* em vez de gerar indiscriminadamente CoTs longas.
Modelos multimodais unificados têm atraído recentemente uma atenção considerável por suas habilidades notáveis em compreender e gerar conjuntamente conteúdos diversos. No entanto, à medida que os contextos integram um número crescente de tokens multimodais intercalados, os processos iterativos de remoção de ruído por difusão e decodificação autoregressiva impõem uma sobrecarga computacional significativa. Para resolver isso, propomos o Hyper-Bagel, um framework de aceleração unificado projetado para acelerar simultaneamente tarefas de compreensão e geração multimodal. Nossa abordagem utiliza uma estratégia de dividir para conquistar, empregando decodificação especulativa para previsão do próximo token e um processo de destilação em múltiplos estágios para remoção de ruído por difusão. O framework oferece ganhos substanciais de desempenho, alcançando uma aceleração de mais de 2x na compreensão multimodal. Para tarefas generativas, nosso modelo resultante de 6-NFE sem perdas proporciona uma aceleração de 16,67x na geração de texto para imagem e de 22x na edição de imagens, tudo isso mantendo a alta qualidade da saída do modelo original. Desenvolvemos ainda um modelo altamente eficiente de 1-NFE que permite edição e geração interativa em tempo quase real. Ao combinar destilação adversária avançada com aprendizado baseado em feedback humano, esse modelo alcança a máxima relação custo-benefício e responsividade, tornando as interações multimodais complexas fluidas e instantâneas.
Este artigo apresenta o CommonForms, um conjunto de dados em escala web para detecção de campos de formulários. Ele aborda o problema de detecção de campos de formulários como detecção de objetos: dada uma imagem de uma página, prever a localização e o tipo (Entrada de Texto, Botão de Escolha, Assinatura) dos campos de formulários. O conjunto de dados foi construído filtrando o Common Crawl para encontrar PDFs que possuem elementos preenchíveis. Começando com 8 milhões de documentos, o processo de filtragem foi utilizado para chegar a um conjunto de dados final de aproximadamente 55 mil documentos, que contêm mais de 450 mil páginas. A análise mostra que o conjunto de dados contém uma mistura diversificada de idiomas e domínios; um terço das páginas são em idiomas diferentes do inglês, e entre os 14 domínios classificados, nenhum domínio representa mais de 25% do conjunto de dados. Além disso, este artigo apresenta uma família de detectores de campos de formulários, FFDNet-Small e FFDNet-Large, que alcançam uma precisão média muito alta no conjunto de testes do CommonForms. Cada modelo custou menos de US$ 500 para ser treinado. Resultados de ablação mostram que entradas de alta resolução são cruciais para a detecção de alta qualidade de campos de formulários, e que o processo de limpeza melhora a eficiência dos dados em comparação com o uso de todos os PDFs que possuem campos preenchíveis no Common Crawl. Uma análise qualitativa mostra que eles superam um leitor de PDF popular e comercialmente disponível que pode preparar formulários. Diferente das soluções comercialmente disponíveis mais populares, o FFDNet pode prever caixas de seleção, além de campos de texto e assinatura. Este é, até onde sabemos, o primeiro conjunto de dados em grande escala lançado para detecção de campos de formulários, bem como os primeiros modelos de código aberto. O conjunto de dados, os modelos e o código serão disponibilizados em https://github.com/jbarrow/commonforms.
O uso de tokens contínuos em vez de discretos durante a fase de Chain-of-Thought (CoT) em modelos de linguagem de grande escala (LLMs) tem chamado atenção recentemente, com base na intuição de que uma mistura contínua de tokens discretos poderia simular uma superposição de vários caminhos de raciocínio simultaneamente. Resultados teóricos comprovaram formalmente que tokens contínuos têm uma expressividade muito maior e podem resolver problemas específicos de forma mais eficiente. No entanto, o uso prático de tokens contínuos tem sido limitado por fortes dificuldades de treinamento: trabalhos anteriores ou utilizam tokens contínuos apenas no momento de inferência em um modelo pré-treinado com tokens discretos, ou precisam destilar o CoT contínuo a partir de CoTs discretos de referência, enfrentando custos computacionais que limitam o CoT a muito poucos tokens. Este é o primeiro trabalho que introduz um método escalável para aprender CoTs contínuos por meio de aprendizado por reforço (RL), sem destilar a partir de CoTs discretos de referência. Utilizamos tokens "soft": misturas de tokens juntamente com ruído na incorporação de entrada para fornecer exploração no RL. A sobrecarga computacional é mínima, permitindo-nos aprender CoTs contínuos com centenas de tokens. Em benchmarks de raciocínio matemático com modelos Llama e Qwen de até 8B, o treinamento com CoTs contínuos iguala o desempenho dos CoTs com tokens discretos em pass@1 e os supera em pass@32, mostrando uma maior diversidade de CoTs. Em comparações sistemáticas, o cenário de melhor desempenho é treinar com tokens de CoT contínuos e, em seguida, usar tokens discretos para inferência, o que significa que os modelos "soft" podem ser implantados de maneira padrão. Por fim, mostramos que o treinamento de RL com CoT contínuo preserva melhor as previsões do modelo base em tarefas fora do domínio, proporcionando assim um toque mais suave ao modelo base.
Recentemente, o 3D Gaussian Splatting (3DGS) surgiu como uma alternativa poderosa às abordagens baseadas em NeRF, permitindo a síntese de novas visões em tempo real e de alta qualidade por meio de Gaussianas 3D explícitas e otimizáveis. No entanto, o 3DGS sofre com um overhead significativo de memória devido à sua dependência de parâmetros por Gaussiana para modelar efeitos dependentes da vista e formas anisotrópicas. Embora trabalhos recentes proponham comprimir o 3DGS com campos neurais, esses métodos têm dificuldade em capturar variações espaciais de alta frequência nas propriedades das Gaussianas, levando a uma reconstrução degradada de detalhes finos. Apresentamos os Hybrid Radiance Fields (HyRF), uma nova representação de cena que combina as vantagens das Gaussianas explícitas e dos campos neurais. O HyRF decompõe a cena em (1) um conjunto compacto de Gaussianas explícitas que armazenam apenas parâmetros críticos de alta frequência e (2) campos neurais baseados em grade que preveem as propriedades restantes. Para aumentar a capacidade de representação, introduzimos uma arquitetura de campo neural desacoplada, modelando separadamente a geometria (escala, opacidade, rotação) e a cor dependente da vista. Além disso, propomos um esquema de renderização híbrida que combina o splatting de Gaussianas com um fundo previsto por campo neural, abordando limitações na representação de cenas distantes. Experimentos demonstram que o HyRF alcança qualidade de renderização de última geração enquanto reduz o tamanho do modelo em mais de 20 vezes em comparação com o 3DGS, mantendo o desempenho em tempo real. Nossa página do projeto está disponível em https://wzpscott.github.io/hyrf/.
Os dialetos representam um componente significativo da cultura humana e são encontrados em todas as regiões do mundo. Na Alemanha, mais de 40% da população fala um dialeto regional (Adler e Hansen, 2022). No entanto, apesar da importância cultural, indivíduos que falam dialetos frequentemente enfrentam estereótipos sociais negativos. Investigamos se tais estereótipos são refletidos por modelos de linguagem de grande escala (LLMs, na sigla em inglês). Baseamo-nos na literatura sociolinguística sobre a percepção de dialetos para analisar traços comumente associados a falantes de dialetos. Com base nesses traços, avaliamos o viés de nomeação de dialetos e o viés de uso de dialetos expressos por LLMs em duas tarefas: uma tarefa de associação e uma tarefa de decisão. Para avaliar o viés de uso de dialetos de um modelo, construímos um corpus de avaliação inédito que emparelha frases de sete dialetos regionais alemães (por exemplo, alemânico e bávaro) com suas contrapartes no alemão padrão. Descobrimos que: (1) na tarefa de associação, todos os LLMs avaliados exibem um viés significativo de nomeação e uso de dialetos contra falantes de dialetos alemães, refletido em associações de adjetivos negativos; (2) todos os modelos reproduzem esses vieses de nomeação e uso de dialetos em suas tomadas de decisão; e (3) ao contrário de trabalhos anteriores que mostram um viés mínimo com menções explícitas a demografias, descobrimos que rotular explicitamente as demografias linguísticas—falantes de dialetos alemães—amplifica o viés mais do que pistas implícitas, como o uso de dialetos.
A modelagem generativa condicional visa aprender uma distribuição de dados condicional a partir de amostras contendo pares de dados-condição. Para isso, métodos baseados em difusão e fluxo têm alcançado resultados impressionantes. Esses métodos utilizam um modelo (de fluxo) aprendido para transportar um ruído gaussiano padrão inicial, que ignora a condição, para a distribuição de dados condicional. Portanto, o modelo precisa aprender tanto o transporte de massa quanto a injeção condicional. Para reduzir a demanda sobre o modelo, propomos o Reparametrização Condicional Consciente para Correspondência de Fluxo (CAR-Flow) — um deslocamento leve e aprendido que condiciona a fonte, o alvo ou ambas as distribuições. Ao reposicionar essas distribuições, o CAR-Flow encurta o caminho de probabilidade que o modelo deve aprender, resultando em treinamento mais rápido na prática. Em dados sintéticos de baixa dimensionalidade, visualizamos e quantificamos os efeitos do CAR. Em dados de imagens naturais de maior dimensionalidade (ImageNet-256), equipar o SiT-XL/2 com CAR-Flow reduz o FID de 2,07 para 1,68, enquanto introduz menos de 0,6% de parâmetros adicionais.
A escassez de dados continua sendo um dos fatores mais limitantes para o avanço na robótica. No entanto, a quantidade de dados robóticos disponíveis no mundo real está crescendo exponencialmente, criando novas oportunidades para a utilização de dados em larga escala. A previsão confiável da conclusão temporal de tarefas poderia ajudar a anotar e curar automaticamente esses dados em grande escala. A abordagem de Aprendizado de Valor Generativo (Generative Value Learning - GVL) foi recentemente proposta, aproveitando o conhecimento incorporado em modelos de visão e linguagem (Vision-Language Models - VLMs) para prever o progresso de tarefas a partir de observações visuais. Com base no GVL, propomos o OpenGVL, um benchmark abrangente para estimar o progresso de tarefas em diversas tarefas de manipulação desafiadoras envolvendo tanto robôs quanto corpos humanos. Avaliamos as capacidades de modelos de base de código aberto disponíveis publicamente, mostrando que famílias de modelos de código aberto têm desempenho significativamente inferior aos seus equivalentes de código fechado, atingindo apenas aproximadamente 70% do desempenho deles em tarefas de previsão de progresso temporal. Além disso, demonstramos como o OpenGVL pode servir como uma ferramenta prática para curadoria e filtragem automatizada de dados, permitindo uma avaliação eficiente da qualidade de grandes conjuntos de dados robóticos. Disponibilizamos o benchmark juntamente com o código completo em github.com/budzianowski/opengvl{OpenGVL}.
Os recentes avanços em modelos de linguagem multimodal de grande escala (MLLMs) têm aprimorado significativamente as capacidades de compreensão de vídeos, abrindo novas possibilidades para aplicações práticas. No entanto, os benchmarks atuais de vídeo concentram-se principalmente em cenas internas ou atividades externas de curta distância, deixando os desafios associados a viagens de longa distância amplamente inexplorados. Dominar trajetórias geoespaciais-temporais estendidas é crucial para a próxima geração de MLLMs, fundamentando tarefas do mundo real, como planejamento e navegação em IA incorporada. Para preencher essa lacuna, apresentamos o VIR-Bench, um novo benchmark composto por 200 vídeos de viagens que enquadra a reconstrução de itinerários como uma tarefa desafiadora projetada para avaliar e avançar a inteligência geoespacial-temporal dos MLLMs. Os resultados experimentais revelam que os MLLMs de ponta, incluindo os proprietários, lutam para alcançar pontuações altas, destacando a dificuldade de lidar com vídeos que abrangem escalas espaciais e temporais estendidas. Além disso, realizamos um estudo de caso aprofundado no qual desenvolvemos um protótipo de agente de planejamento de viagens que aproveita os insights obtidos do VIR-Bench. As recomendações de itinerário significativamente melhoradas do agente verificam que nosso protocolo de avaliação não apenas avalia modelos de forma eficaz, mas também se traduz em ganhos concretos de desempenho em aplicações voltadas para o usuário.
Sistemas de tradução simultânea de fala para texto (SimulST) precisam equilibrar a qualidade da tradução com a latência—o atraso entre a entrada de fala e a saída traduzida. Embora a avaliação de qualidade seja bem estabelecida, a medição precisa da latência continua sendo um desafio. As métricas existentes frequentemente produzem resultados inconsistentes ou enganosos, especialmente no cenário amplamente utilizado de formato curto, onde a fala é artificialmente pré-segmentada. Neste artigo, apresentamos a primeira análise abrangente das métricas de latência do SimulST em pares de idiomas, sistemas e regimes de formato curto e longo. Revelamos um viés estrutural nas métricas atuais relacionado à segmentação que prejudica comparações justas e significativas. Para resolver isso, introduzimos o YAAL (Yet Another Average Lagging), uma métrica de latência refinada que oferece avaliações mais precisas no regime de formato curto. Estendemos o YAAL para o LongYAAL, destinado a áudio não segmentado, e propomos o SoftSegmenter, uma nova ferramenta de resegmentação baseada em alinhamento em nível de palavra. Nossos experimentos mostram que o YAAL e o LongYAAL superam métricas de latência populares, enquanto o SoftSegmenter melhora a qualidade do alinhamento na avaliação de formato longo, juntos permitindo avaliações mais confiáveis de sistemas SimulST.
A reconstrução de superfícies precisas com campos de radiação tem alcançado progressos notáveis nos últimos anos. No entanto, as abordagens predominantes, baseadas principalmente em *Gaussian Splatting*, estão cada vez mais limitadas por gargalos de representação. Neste artigo, apresentamos o GeoSVR, uma estrutura explícita baseada em voxels que explora e amplia o potencial pouco investigado dos voxels esparsos para alcançar uma reconstrução de superfície precisa, detalhada e completa. Como pontos fortes, os voxels esparsos permitem preservar a completude da cobertura e a clareza geométrica, embora desafios correspondentes também surjam devido à ausência de restrições de cena e à localidade no refinamento da superfície. Para garantir a convergência correta da cena, propomos primeiro uma Restrição de Profundidade com Incerteza de Voxel (*Voxel-Uncertainty Depth Constraint*) que maximiza o efeito das pistas de profundidade monoculares, ao mesmo tempo que apresenta uma incerteza orientada por voxel para evitar a degradação da qualidade, permitindo restrições de cena eficazes e robustas, mas preservando geometrias altamente precisas. Posteriormente, a Regularização de Superfície de Voxel Esparso (*Sparse Voxel Surface Regularization*) é projetada para melhorar a consistência geométrica de voxels minúsculos e facilitar a formação de superfícies nítidas e precisas baseadas em voxels. Experimentos extensivos demonstram nosso desempenho superior em comparação com métodos existentes em diversos cenários desafiadores, destacando-se em precisão geométrica, preservação de detalhes e completude da reconstrução, mantendo alta eficiência. O código está disponível em https://github.com/Fictionarry/GeoSVR.
Apresentamos o RadEval, um framework unificado e de código aberto para avaliação de textos radiológicos. O RadEval consolida uma ampla gama de métricas, desde sobreposição clássica de n-gramas (BLEU, ROUGE) e medidas contextuais (BERTScore) até pontuações baseadas em conceitos clínicos (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) e avaliadores avançados baseados em LLMs (GREEN). Refinamos e padronizamos as implementações, estendemos o GREEN para suportar múltiplas modalidades de imagem com um modelo mais leve e pré-treinamos um codificador específico para radiologia, demonstrando forte desempenho em recuperação zero-shot. Também disponibilizamos um conjunto de dados ricamente anotado por especialistas, com mais de 450 rótulos de erros clinicamente significativos, e mostramos como diferentes métricas se correlacionam com o julgamento de radiologistas. Por fim, o RadEval fornece ferramentas de teste estatístico e avaliações de modelos de referência em múltiplos conjuntos de dados publicamente disponíveis, facilitando a reprodutibilidade e o benchmarking robusto na geração de relatórios radiológicos.
As políticas de manipulação robótica frequentemente falham em generalizar porque precisam aprender simultaneamente onde focar, quais ações tomar e como executá-las. Argumentamos que o raciocínio de alto nível sobre onde e o que pode ser delegado a modelos de visão e linguagem (VLMs), permitindo que as políticas se especializem em como agir. Apresentamos o PEEK (Policy-agnostic Extraction of Essential Keypoints), que ajusta finamente VLMs para prever uma representação intermediária unificada baseada em pontos: 1. trajetórias do efetuador final especificando quais ações tomar, e 2. máscaras relevantes à tarefa indicando onde focar. Essas anotações são sobrepostas diretamente nas observações do robô, tornando a representação independente da política e transferível entre arquiteturas. Para permitir treinamento escalável, introduzimos um pipeline de anotação automática, gerando dados rotulados em mais de 20 conjuntos de dados de robôs abrangendo 9 diferentes implementações. Em avaliações do mundo real, o PEEK consistentemente melhora a generalização zero-shot, incluindo uma melhoria de 41,4x no mundo real para uma política 3D treinada apenas em simulação, e ganhos de 2-3,5x tanto para grandes VLAs quanto para pequenas políticas de manipulação. Ao permitir que VLMs absorvam a complexidade semântica e visual, o PEEK equipa as políticas de manipulação com os mínimos indícios necessários—onde, o que e como. Site em https://peek-robot.github.io/.
Imagens multiespectrais desempenham um papel crucial em diversas aplicações de Sensoriamento Remoto, incluindo classificação de uso do solo, monitoramento ambiental e planejamento urbano. Essas imagens são amplamente adotadas porque suas bandas espectrais adicionais correlacionam-se fortemente com materiais físicos no solo, como gelo, água e vegetação. Isso permite uma identificação mais precisa, e sua disponibilidade pública em missões, como Sentinel-2 e Landsat, só aumenta seu valor. Atualmente, a análise automática desses dados é predominantemente gerenciada por modelos de aprendizado de máquina especificamente treinados para entrada multiespectral, que são custosos para treinar e manter. Além disso, embora forneçam muita utilidade para o Sensoriamento Remoto, tais entradas adicionais não podem ser usadas com poderosos modelos multimodais generalistas de grande escala, que são capazes de resolver muitos problemas visuais, mas não conseguem entender sinais multiespectrais especializados. Para abordar isso, propomos uma abordagem sem necessidade de treinamento que introduz novos dados multiespectrais em um modo exclusivamente Zero-Shot, como entradas para modelos multimodais generalistas, treinados apenas com entradas RGB. Nossa abordagem aproveita o entendimento dos modelos multimodais sobre o espaço visual e propõe adaptar as entradas a esse espaço, além de injetar informações específicas do domínio como instruções no modelo. Exemplificamos essa ideia com o modelo Gemini2.5 e observamos ganhos significativos de desempenho Zero-Shot da abordagem em benchmarks populares de Sensoriamento Remoto para classificação de cobertura e uso do solo, demonstrando a fácil adaptabilidade do Gemini2.5 a novas entradas. Esses resultados destacam o potencial para profissionais de geociências, que trabalham com entradas especializadas não padronizadas, de aproveitar facilmente modelos multimodais poderosos, como o Gemini2.5, para acelerar seu trabalho, beneficiando-se de suas ricas capacidades de raciocínio e contextualização, fundamentadas em dados de sensores especializados.
Apresentamos o DRISHTIKON, um benchmark multimodal e multilíngue pioneiro, centrado exclusivamente na cultura indiana, projetado para avaliar a compreensão cultural de sistemas de IA generativa. Diferente de benchmarks existentes com escopo genérico ou global, o DRISHTIKON oferece uma cobertura profunda e detalhada das diversas regiões da Índia, abrangendo 15 idiomas, cobrindo todos os estados e territórios da união, e incorporando mais de 64.000 pares de texto-imagem alinhados. O conjunto de dados captura temas culturais ricos, incluindo festivais, trajes, culinárias, formas de arte e patrimônio histórico, entre muitos outros. Avaliamos uma ampla gama de modelos de visão e linguagem (VLMs), incluindo modelos pequenos e grandes de código aberto, sistemas proprietários, VLMs especializados em raciocínio e modelos focados em línguas indianas, em configurações zero-shot e de cadeia de pensamento. Nossos resultados revelam limitações cruciais na capacidade dos modelos atuais de raciocinar sobre entradas multimodais culturalmente fundamentadas, especialmente para idiomas de baixo recurso e tradições menos documentadas. O DRISHTIKON preenche uma lacuna vital na pesquisa de IA inclusiva, oferecendo um ambiente robusto para avançar tecnologias de linguagem culturalmente conscientes e multimodalmente competentes.