Artigos de pesquisa em IA selecionados diariamente com traduções
O OmniLottie é uma estrutura versátil que gera animações vetoriais de alta qualidade a partir de instruções multimodais. Para um controle flexível do movimento e do conteúdo visual, focamos no Lottie, um formato JSON leve para representação tanto de formas quanto de comportamentos de animação. No entanto, os ficheiros JSON Lottie brutos contêm metadados estruturais invariantes extensos e tokens de formatação, representando desafios significativos para a aprendizagem da geração de animações vetoriais. Portanto, introduzimos um tokenizador Lottie bem concebido que transforma os ficheiros JSON em sequências estruturadas de comandos e parâmetros que representam formas, funções de animação e parâmetros de controlo. Este tokenizador permite-nos construir o OmniLottie com base em modelos de linguagem visual pré-treinados para seguir instruções intercaladas multimodais e gerar animações vetoriais de alta qualidade. Para avançar ainda mais a investigação em geração de animação vetorial, criámos o MMLottie-2M, um conjunto de dados em larga escala de animações vetoriais concebidas profissionalmente e emparelhadas com anotações textuais e visuais. Através de experiências extensivas, validamos que o OmniLottie pode produzir animações vetoriais vívidas e semanticamente alinhadas que aderem de perto às instruções humanas multimodais.
Image Chain-of-Thought (Image-CoT) é um paradigma de escalonamento em tempo de teste que melhora a geração de imagens ao estender o tempo de inferência. A maioria dos métodos Image-CoT foca na geração de texto para imagem (T2I). Diferente da geração T2I, a edição de imagem é orientada por objetivos: o espaço de soluções é restringido pela imagem fonte e pela instrução. Esta incompatibilidade causa três desafios ao aplicar Image-CoT à edição: alocação ineficiente de recursos com orçamentos de amostragem fixos, verificação não confiável em estágio inicial usando pontuações de MLLM gerais e resultados editados redundantes devido à amostragem em larga escala. Para resolver isso, propomos o ADaptive Edit-CoT (ADE-CoT), uma estrutura de escalonamento em tempo de teste sob demanda para melhorar a eficiência e o desempenho da edição. Ela incorpora três estratégias principais: (1) uma alocação de recursos consciente da dificuldade, que atribui orçamentos dinâmicos com base na dificuldade de edição estimada; (2) verificação específica para edição na poda inicial, que usa localização de região e consistência de legenda para selecionar candidatos promissores; e (3) parada oportunista em profundidade, guiada por um verificador específico da instância, que termina quando resultados alinhados com a intenção são encontrados. Experimentos extensos em três modelos de edição estado da arte (Step1X-Edit, BAGEL, FLUX.1 Kontext) em três benchmarks mostram que o ADE-CoT alcança trade-offs superiores entre desempenho e eficiência. Com orçamentos de amostragem comparáveis, o ADE-CoT obtém melhor desempenho com uma aceleração superior a 2x em relação ao método Best-of-N.
Os agentes de engenharia de software (SWE) estão a melhorar rapidamente, com os ganhos recentes a serem maioritariamente impulsionados pela aprendizagem por reforço (RL). No entanto, o treino de RL é limitado pela escassez de coleções de tarefas em grande escala com ambientes de execução reproduzíveis e conjuntos de testes fiáveis. Embora tenham surgido cada vez mais benchmarks, os conjuntos de dados adequados para treino permanecem limitados em escala e diversidade, ou frequentemente visam um conjunto limitado de ecossistemas de linguagens de alto recurso. Apresentamos o SWE-rebench V2, um pipeline automatizado e agnóstico à linguagem para recolher tarefas executáveis de SWE do mundo real e construir ambientes de treino de RL em escala. O pipeline sintetiza procedimentos de instalação e teste específicos do repositório através de um agente de configuração interativo, e filtra instâncias inválidas usando um conjunto de juízes LLM, validados contra anotações do SWE-bench verificadas por humanos. Utilizando este pipeline, construímos um conjunto de dados com mais de 32.000 tarefas abrangendo 20 linguagens e mais de 3.600 repositórios, com imagens pré-construídas para execução reproduzível. Para escalar ainda mais os dados de treino, disponibilizamos adicionalmente mais de 120.000 tarefas com instruções de instalação, testes de "falha-para-êxito" e metadados ricos, onde o enunciado do problema é gerado com base na descrição original do pull request. Validamos as instâncias recolhidas através de um estudo de diagnóstico que cobre um subconjunto de tarefas em cinco linguagens de programação em sete modelos populares, e fornecemos metadados a nível de instância que sinalizam fatores de confusão comuns, como testes excessivamente restritivos e descrições pouco específicas. Disponibilizamos os conjuntos de dados, o código de recolha e execução, e os artefactos associados para permitir o treino em grande escala de agentes SWE em diversas linguagens e repositórios.
À medida que o alinhamento de Modelos de Linguagem de Grande Escala (LLMs) evolui de simples conclusões para gerações complexas e altamente sofisticadas, os Modelos de Recompensa estão a deslocar-se progressivamente para avaliações guiadas por rubricas para mitigar vieses superficiais. No entanto, a comunidade carece de um referencial unificado para avaliar este paradigma de avaliação, uma vez que os benchmarks existentes não possuem nem a complexidade discriminativa nem as anotações de rubricas com verdade real (ground-truth) necessárias para uma análise rigorosa. Para colmatar esta lacuna, introduzimos o RubricBench, um benchmark curado com 1.147 comparações pareadas especificamente concebido para avaliar a fiabilidade da avaliação baseada em rubricas. A nossa construção emprega um pipeline de filtração multidimensional para selecionar exemplos difíceis que apresentam complexidade de entrada subtil e viés superficial enganador, aumentando cada um com rubricas atómicas anotadas por especialistas e derivadas estritamente a partir de instruções. Experiências abrangentes revelam uma lacuna substancial de capacidade entre as rubricas anotadas por humanos e as geradas por modelos, indicando que mesmo os modelos mais avançados lutam para especificar autonomamente critérios de avaliação válidos, ficando consideravelmente aquém do desempenho guiado por humanos.
Os Modelos de Linguagem de Grande Porte (LLMs) têm demonstrado recentemente capacidades de raciocínio notáveis, em grande parte possibilitadas pelo pós-treinamento baseado em ajuste fino supervisionado (SFT) e aprendizado por reforço (RL) em dados de raciocínio de alta qualidade. No entanto, a reprodução e extensão dessas capacidades em ambientes abertos e escaláveis é dificultada por três desafios fundamentais centrados nos dados: (1) o problema do início a frio, decorrente da falta de conjuntos de dados iniciais com trajetórias detalhadas e longas de Cadeia de Pensamento (CoT) necessárias para inicializar políticas de raciocínio; (2) a cobertura de domínio limitada, uma vez que a maioria dos conjuntos de dados de raciocínio de código aberto existentes está concentrada em matemática, com cobertura limitada de disciplinas científicas mais amplas; e (3) o gargalo de anotação, onde a dificuldade das tarefas de raciocínio de nível de fronteira torna a anotação humana confiável proibitivamente cara ou inviável. Para enfrentar esses desafios, apresentamos o CHIMERA, um conjunto de dados sintético e compacto de raciocínio composto por 9K amostras para raciocínio generalizável entre domínios. O CHIMERA é construído com três propriedades principais: (1) fornece trajetórias de raciocínio CoT longas e ricas, sintetizadas por modelos de raciocínio state-of-the-art; (2) possui cobertura ampla e estruturada, abrangendo 8 grandes disciplinas científicas e mais de 1K tópicos granulares organizados por meio de uma taxonomia hierárquica gerada por modelo; e (3) emprega um pipeline de avaliação totalmente automatizado e escalável que usa modelos de raciocínio robustos para validar cruzadamente tanto a validade do problema quanto a correção da resposta. Utilizamos o CHIMERA para realizar o pós-treinamento de um modelo Qwen3 de 4B. Apesar do tamanho modesto do conjunto de dados, o modelo resultante alcança um desempenho forte em um conjunto de benchmarks desafiadores de raciocínio, incluindo GPQA-Diamond, AIME 24/25/26, HMMT 25 e Humanity's Last Exam, aproximando-se ou igualando o desempenho de raciocínio de modelos substancialmente maiores, como o DeepSeek-R1 e o Qwen3-235B.
O OpenAutoNLU é uma biblioteca de aprendizado de máquina automatizado de código aberto para tarefas de compreensão de linguagem natural (NLU), abrangendo tanto classificação de texto quanto reconhecimento de entidades nomeadas (NER). Diferente das soluções existentes, introduzimos uma seleção de regime de treinamento consciente dos dados que não requer configuração manual do usuário. A biblioteca também oferece diagnósticos integrados de qualidade de dados, detecção configurável de dados fora da distribuição (OOD) e funcionalidades com modelos de linguagem de grande porte (LLM), tudo dentro de uma API de baixo código mínima. O aplicativo de demonstração está acessível em https://openautonlu.dev.
Os recentes avanços nas capacidades de raciocínio dos modelos de linguagem multimodal de grande porte (MLLMs) têm capacitado esses modelos a lidar com tarefas mais complexas, como análise científica e raciocínio matemático. Apesar do seu potencial, as habilidades de raciocínio dos MLLMs em diferentes cenários da vida real permanecem amplamente inexploradas e carecem de benchmarks padronizados para avaliação. Para preencher essa lacuna, apresentamos o MMR-Life, um benchmark abrangente projetado para avaliar as diversas capacidades de raciocínio multimodal e multi-imagem dos MLLMs em cenários da vida real. O MMR-Life consiste em 2.646 questões de múltipla escolha baseadas em 19.108 imagens provenientes principalmente de contextos do mundo real, cobrindo de forma abrangente sete tipos de raciocínio: abdutivo, analógico, causal, dedutivo, indutivo, espacial e temporal. Diferente dos benchmarks de raciocínio existentes, o MMR-Life não depende de conhecimentos específicos de domínio, mas exige que os modelos integrem informações através de múltiplas imagens e apliquem diversas habilidades de raciocínio. A avaliação de 37 modelos avançados destaca o desafio substancial representado pelo MMR-Life. Mesmo os modelos mais avançados, como o GPT-5, alcançam apenas 58% de precisão e exibem uma variação considerável no desempenho entre os diferentes tipos de raciocínio. Além disso, analisamos os paradigmas de raciocínio dos MLLMs existentes, explorando como fatores como a extensão do pensamento, o método de raciocínio e o tipo de raciocínio afetam o seu desempenho. Em resumo, o MMR-Life estabelece uma base abrangente para avaliar, analisar e melhorar a próxima geração de sistemas de raciocínio multimodal.
Os atuais detectores 3D de objetos em ambientes internos com múltiplas visões dependem de uma geometria de sensor de alto custo (ou seja, poses de câmera multiview calibradas com precisão) para fundir informações multiview em uma representação global da cena, limitando a implantação em cenários do mundo real. Nós visamos uma configuração mais prática: a detecção 3D de objetos em ambientes internos Livre de Geometria de Sensor (SG-Free), onde não há entradas geométricas fornecidas pelo sensor (poses multiview ou profundidade). O recente Visual Geometry Grounded Transformer (VGGT) demonstra que fortes indícios 3D podem ser inferidos diretamente a partir de imagens. Com base nessa percepção, apresentamos o VGGT-Det, o primeiro framework desenvolvido para detecção 3D de objetos em ambientes internos multiview no contexto SG-Free. Em vez de simplesmente consumir as previsões do VGGT, nosso método integra o codificador do VGGT em um *pipeline* baseado em *transformer*. Para alavancar eficazmente tanto os *priors* semânticos quanto geométricos presentes no VGGT, introduzimos dois novos componentes-chave: (i) Geração de Consultas Guiada por Atenção (AG): explora os mapas de atenção do VGGT como *priors* semânticos para inicializar consultas de objetos, melhorando a localização ao focar em regiões de objetos, preservando a estrutura espacial global; (ii) Agregação de Características Orientada por Consultas (QD): uma Consulta-Visualizável (See-Query) aprendível interage com as consultas de objetos para 'ver' o que elas precisam e, em seguida, agrega dinamicamente características geométricas de múltiplos níveis através das camadas do VGGT, que elevam progressivamente características 2D para 3D. Experimentos mostram que o VGGT-Det supera significativamente o método de melhor desempenho na configuração SG-Free em 4.4 e 8.6 mAP@0.25 no ScanNet e ARKitScenes, respectivamente. Um estudo de ablação mostra que os *priors* semânticos e geométricos aprendidos internamente pelo VGGT podem ser eficazmente aproveitados pelos nossos componentes AG e QD.
Embora os modelos de geração musical tenham evoluído para lidar com entradas multimodais complexas que misturam texto, letras e áudio de referência, os mecanismos de avaliação ficaram para trás. Neste artigo, preenchemos essa lacuna crítica estabelecendo um ecossistema abrangente para modelagem de recompensa musical sob Instrução Multimodal Composicional (CMI), onde a música gerada pode ser condicionada a descrições textuais, letras e prompts de áudio. Primeiro, apresentamos o CMI-Pref-Pseudo, um conjunto de dados de preferência em larga escala composto por 110 mil amostras pseudo-rotuladas, e o CMI-Pref, um corpus de alta qualidade anotado manualmente e adaptado para tarefas de alinhamento de granularidade fina. Para unificar o cenário de avaliação, propomos o CMI-RewardBench, um benchmark unificado que avalia modelos de recompensa musical em amostras heterogêneas em termos de musicalidade, alinhamento texto-música e alinhamento a instruções composicionais. Aproveitando esses recursos, desenvolvemos os modelos de recompensa CMI (CMI-RMs), uma família de modelos de recompensa com eficiência de parâmetros capaz de processar entradas heterogêneas. Avaliamos sua correlação com as pontuações de julgamento humano sobre musicalidade e alinhamento no CMI-Pref, juntamente com conjuntos de dados anteriores. Experimentos adicionais demonstram que o CMI-RM não apenas se correlaciona fortemente com os julgamentos humanos, mas também permite um escalonamento eficaz no tempo de inferência por meio de filtragem top-k. Os dados de treinamento, benchmarks e modelos de recompensa necessários estão publicamente disponíveis.
O desenvolvimento de agentes interativos de uso de ferramentas com múltiplos turnos é um desafio, pois as necessidades dos usuários no mundo real são frequentemente complexas e ambíguas, mas os agentes devem executar ações determinísticas para satisfazê-las. Para abordar essa lacuna, apresentamos o CoVe (Constraint-Verification), uma estrutura de síntese de dados pós-treinamento projetada para treinar agentes interativos de uso de ferramentas, garantindo simultaneamente a complexidade e a correção dos dados. O CoVe começa por definir restrições explícitas de tarefa, que desempenham um duplo papel: orientam a geração de trajectórias complexas e atuam como verificadores determinísticos para avaliar a qualidade da trajectória. Isto permite a criação de trajectórias de treino de alta qualidade para *fine-tuning* supervisionado (SFT) e a derivação de sinais de recompensa precisos para aprendizagem por reforço (RL). A nossa avaliação no desafiante benchmark τ^2-bench demonstra a eficácia da estrutura. Notavelmente, o nosso modelo compacto CoVe-4B atinge taxas de sucesso de 43,0% e 59,4% nos domínios da Aviação e Retalho, respetivamente; o seu desempenho geral supera significativamente *baselines* fortes de escala similar e mantém-se competitivo com modelos até 17 vezes o seu tamanho. Estes resultados indicam que o CoVe fornece um caminho eficaz e eficiente para sintetizar dados de treino para agentes interativos de uso de ferramentas de última geração. Para apoiar investigação futura, disponibilizamos em *open-source* o nosso código, o modelo treinado e o conjunto completo de 12 mil trajectórias de alta qualidade usadas para o treino.
Apresentamos o LLaDA-o, um modelo de difusão omni eficaz e adaptativo em comprimento para compreensão e geração multimodais. O LLaDA-o é construído sobre uma arquitetura de Mistura de Difusão (MoD) que desacopla a difusão discreta com mascaramento para compreensão de texto e a difusão contínua para geração visual, ao mesmo tempo que as acopla através de uma estrutura de atenção compartilhada, simples e eficiente que reduz a computação redundante para condições fixas. Com base no MoD, introduzimos ainda uma estratégia de adaptação de comprimento centrada em dados que permite decodificação de comprimento flexível em ambientes multimodais sem alterações arquiteturais. Experimentos extensivos mostram que o LLaDA-o alcança desempenho state-of-the-art entre os modelos de difusão omni em benchmarks de compreensão e geração multimodais, atingindo 87.04 no DPG-Bench para geração de texto para imagem, corroborando a eficácia da modelagem unificada de difusão omni. O código está disponível em https://github.com/ML-GSAI/LLaDA-o.
Os álbuns de fotos pessoais não são meras coleções de imagens estáticas, mas arquivos ecológicos vivos definidos pela continuidade temporal, pelo entrelaçamento social e por metadados ricos, o que torna a recuperação personalizada de fotos uma tarefa complexa. No entanto, os benchmarks de recuperação existentes dependem fortemente de instantâneos da web isolados de contexto, falhando em capturar o raciocínio de múltiplas fontes necessário para resolver consultas autênticas e orientadas pela intenção do usuário. Para preencher esta lacuna, introduzimos o PhotoBench, o primeiro benchmark construído a partir de álbuns pessoais autênticos. Ele foi projetado para mudar o paradigma da correspondência visual para o raciocínio personalizado, orientado por intenção e baseado em múltiplas fontes. Com base num rigoroso quadro de perfilamento de múltiplas fontes, que integra semântica visual, metadados espaço-temporais, identidade social e eventos temporais para cada imagem, sintetizamos consultas complexas orientadas por intenção, enraizadas nas trajetórias de vida dos usuários. Uma avaliação extensiva no PhotoBench expõe duas limitações críticas: o hiato de modalidade, onde modelos de incorporação unificada falham em restrições não visuais, e o paradoxo da fusão de fontes, onde sistemas agentes apresentam orquestração deficiente de ferramentas. Estas descobertas indicam que a próxima fronteira na recuperação multimodal pessoal está para além das incorporações unificadas, necessitando de sistemas de raciocínio agentes robustos, capazes de uma satisfação precisa de restrições e de fusão de múltiplas fontes. O nosso PhotoBench está disponível.
Avances recentes nos Modelos de Difusão de Vídeo (VDMs) fundamentais têm gerado progressos significativos. No entanto, apesar da notável qualidade visual dos vídeos gerados, a reconstrução de cenas 3D consistentes a partir dessas saídas permanece um desafio, devido à limitada controlabilidade da câmera e ao conteúdo gerado inconsistente quando visto a partir de trajetórias de câmera distintas. Neste artigo, propomos o WorldStereo, uma nova estrutura que conecta a geração de vídeo guiada por câmera e a reconstrução 3D por meio de dois módulos de memória geométrica dedicados. Formalmente, a memória global-geométrica permite um controle preciso da câmera enquanto injeta *priors* estruturais grosseiros através de nuvens de pontos atualizadas incrementalmente. Além disso, a memória espacial-estéreo restringe os campos receptivos de atenção do modelo com correspondência 3D para focar em detalhes de granularidade fina a partir do banco de memória. Esses componentes permitem que o WorldStereo gere vídeos consistentes em múltiplas visões sob controle preciso de câmera, facilitando uma reconstrução 3D de alta qualidade. Ademais, o WorldStereo baseado em ramo de controle flexível mostra uma eficiência impressionante, beneficiando-se do *backbone* VDM destilado por correspondência de distribuição sem treinamento conjunto. Experimentos extensos em benchmarks de geração de vídeo guiada por câmera e de reconstrução 3D demonstram a eficácia da nossa abordagem. Notavelmente, mostramos que o WorldStereo atua como um poderoso modelo de mundo, abordando diversas tarefas de geração de cena (seja começando de imagens perspectivas ou panorâmicas) com resultados 3D de alta fidelidade. Os modelos serão disponibilizados.
Os modelos de base generativos são cada vez mais dimensionados em largura e profundidade, o que impõe desafios significativos para a aprendizagem estável de características e a transferência confiável de hiperparâmetros (HP) entre diferentes dimensões de modelos. Embora a parametrização de atualização máxima (μP) tenha fornecido uma solução fundamentada para ambos os problemas no dimensionamento em largura, as extensões existentes para o regime conjunto de dimensionamento em largura e profundidade permanecem fragmentadas, específicas da arquitetura e do otimizador, e frequentemente dependem de teorias tecnicamente complexas. Neste trabalho, desenvolvemos uma estrutura espectral simples e unificada para a μP sob dimensionamento conjunto de largura e profundidade. Considerando redes residuais com profundidades de bloco variáveis, introduzimos primeiro uma condição espectral μP que caracteriza precisamente como as normas dos pesos e suas atualizações por etapa devem ser dimensionadas com a largura e a profundidade, unificando formulações μP anteriormente dispersas como casos especiais. Com base nesta condição, derivamos depois uma receita geral para implementar a μP numa ampla classe de otimizadores, mapeando as restrições espectrais para parametrizações concretas de HP. Esta abordagem não só recupera as formulações μP existentes (por exemplo, para SGD e AdamW), como também se estende naturalmente a uma gama mais ampla de otimizadores. Finalmente, experiências em modelos de linguagem de estilo GPT-2 demonstram que a condição espectral μP proposta preserva a aprendizagem estável de características e permite uma transferência robusta de HP sob dimensionamento de largura e profundidade.
O aprendizado por reforço (RL) desempenha um papel central na melhoria da capacidade de raciocínio e no alinhamento de grandes modelos de linguagem, mas sua eficiência depende criticamente de como os dados de treinamento são selecionados. As estratégias de seleção online existentes baseiam-se predominantemente em heurísticas baseadas em dificuldade, favorecendo pontos de dados com taxas de sucesso intermediárias, equiparando implicitamente dificuldade com informatividade e negligenciando a incerteza epistêmica decorrente de evidências limitadas. Apresentamos o InSight, um método de amostragem de dados guiado por informação para treinamento de RL, fundamentado em um objetivo de informação mútua ponderada. Ao modelar os resultados dos dados com taxas de sucesso latentes bayesianas, mostramos que a redução esperada da incerteza se decompõe em componentes complementares dependentes de dificuldade e de evidência, revelando uma limitação fundamental da seleção baseada apenas em dificuldade. Aproveitando essa observação, o InSight constrói uma pontuação de aquisição estável baseada na crença média do sucesso dos pontos de dados, em vez de resultados amostrados ruidosos, e se estende naturalmente para configurações de múltiplas execuções comuns no aprendizado por reforço com recompensas verificáveis (RLVR). Experimentos extensivos demonstram que o InSight alcança consistentemente desempenho de ponta e melhora a eficiência do treinamento, incluindo um ganho médio de +1,41 em benchmarks de Planejamento e Matemática, uma melhora de +1,01 no raciocínio geral e uma aceleração de até ~2,2x, com sobrecarga computacional adicional insignificante.
Os grandes modelos de linguagem (LLMs) estão se tornando a base para agentes autônomos capazes de utilizar ferramentas para resolver tarefas complexas. O aprendizado por reforço (RL) surgiu como uma abordagem comum para injetar tais capacidades agentivas, mas normalmente em configurações de treinamento rigidamente controladas. Ele frequentemente depende de pares tarefa-solução cuidadosamente construídos e de substancial supervisão humana, o que cria um obstáculo fundamental à auto-evolução aberta em direção a sistemas superinteligentes. Neste artigo, propomos o framework Tool-R0 para treinar agentes de uso geral de ferramentas do zero com RL de auto-jogo, sob uma premissa de dados zero. Inicializado a partir do mesmo LLM base, o Tool-R0 co-evolui um Gerador e um Solucionador com recompensas complementares: um propõe tarefas desafiadoras direcionadas no limite de competência do outro, e o outro aprende a resolvê-las com chamadas de ferramentas do mundo real. Isso cria um ciclo de auto-evolução que não requer tarefas ou conjuntos de dados preexistentes. A avaliação em diferentes benchmarks de uso de ferramentas mostra que o Tool-R0 produz uma melhoria relativa de 92,5% sobre o modelo base e supera linhas de base de chamada de ferramentas totalmente supervisionadas sob a mesma configuração. Nosso trabalho fornece ainda insights empíricos sobre agentes LLM de auto-jogo através da análise da co-evolução, dinâmicas de currículo e comportamento de escalonamento.
O aprendizado por reforço (RL) para raciocínio matemático pode sofrer com a esparsidade de recompensas: para problemas desafiadores, o LLM falha em amostrar trajetórias corretas, impedindo que o RL receba feedback positivo significativo. Ao mesmo tempo, frequentemente existem soluções de referência escritas por humanos junto com o problema (por exemplo, problemas do AoPS), mas o ajuste fino direto nessas soluções não oferece benefício porque os modelos geralmente não conseguem imitar provas humanas que estão fora de sua própria distribuição de raciocínio. Apresentamos o *Reference-Guided Fine-Tuning* (ReGFT), um método simples e eficaz que utiliza soluções de referência escritas por humanos para sintetizar trajetórias positivas em problemas difíceis e treinar o modelo nelas antes do RL. Para cada problema, fornecemos ao modelo uma solução de referência parcial e deixamos que ele gere seu próprio rastro de raciocínio, garantindo que as trajetórias resultantes permaneçam no espaço de raciocínio do modelo, mas ainda se beneficiem da orientação da referência. O ajuste fino nessas trajetórias guiadas por referência aumenta o número de problemas solucionáveis e produz um *checkpoint* que recebe mais recompensas positivas durante o RL. Em três *benchmarks* (AIME24, AIME25, BeyondAIME), o ReGFT melhora consistentemente a precisão supervisionada, acelera o treinamento com DAPO e eleva o platô de desempenho final do RL. Nossos resultados mostram que o ReGFT supera efetivamente a esparsidade de recompensas e desbloqueia um raciocínio matemático baseado em RL mais forte.
Os agentes de LLM conseguem explorar bases de código e raciocinar sobre a semântica do código sem o executar? Estudamos esta capacidade, a que chamamos raciocínio de código agentivo, e introduzimos o *raciocínio semiformal*: uma metodologia estruturada de *prompting* que exige que os agentes construam premissas explícitas, tracem caminhos de execução e derivem conclusões formais. Ao contrário de uma cadeia de pensamento não estruturada, o raciocínio semiformal atua como um certificado: o agente não pode ignorar casos ou fazer afirmações sem suporte. Avaliamos três tarefas (verificação de equivalência de *patches*, localização de falhas e resposta a perguntas sobre código) e mostramos que o raciocínio semiformal melhora consistentemente a precisão em todas elas. Para a equivalência de *patches*, a precisão aumenta de 78% para 88% em exemplos curados e atinge 93% em *patches* reais gerados por agentes, aproximando-se da confiabilidade necessária para sinais de recompensa de RL sem execução. Para resposta a perguntas sobre código no RubberDuckBench Mohammad et al. (2026), o raciocínio semiformal atinge 87% de precisão. Para a localização de falhas no Defects4J Just et al. (2014), o raciocínio semiformal melhora a precisão Top-5 em 5 pontos percentuais em relação ao raciocínio padrão. Estes resultados demonstram que o raciocínio agentivo estruturado permite uma análise semântica de código significativa sem execução, abrindo aplicações práticas em *pipelines* de treino de RL, revisão de código e análise estática de programas.
O aprendizado por reforço (RL) está sendo cada vez mais utilizado para o pós-treinamento de Modelos de Visão e Linguagem (VLMs) médicos, mas ainda não está claro se o RL melhora o raciocínio visual médico ou principalmente aprimora comportamentos já induzidos pelo ajuste fino supervisionado (SFT). Apresentamos um estudo controlado que desagrega esses efeitos ao longo de três eixos: visão, SFT e RL. Usando o MedMNIST como uma plataforma de testes multimodal, investigamos a percepção visual comparando os módulos de visão dos VLMs com baselines apenas visuais, quantificamos o suporte ao raciocínio e a eficiência de amostragem via Acurácia@1 versus Passo@K, e avaliamos quando o RL fecha a lacuna de suporte e como os ganhos se transferem entre modalidades. Descobrimos que o RL é mais eficaz quando o modelo já possui um suporte não trivial (alto Passo@K): ele principalmente aguça a distribuição de saída, melhorando a Acc@1 e a eficiência de amostragem, enquanto o SFT expande o suporte e torna o RL eficaz. Com base nessas descobertas, propomos uma receita consciente do limite e a instanciamos através do pós-treinamento por RL de um modelo inicializado com OctoMed em um subconjunto pequeno e equilibrado de questões de múltipla escolha do PMC-VQA, alcançando um forte desempenho médio em seis benchmarks de VQA médicos.
Apresentamos o Legal RAG Bench, uma referência e metodologia de avaliação para aferir o desempenho ponta a ponta de sistemas jurídicos de RAG. Como referência, o Legal RAG Bench é composto por 4.876 excertos do Victorian Criminal Charge Book, acompanhados de 100 questões complexas e elaboradas manualmente que exigem conhecimento especializado em direito penal e processo penal. São fornecidas tanto respostas em formato longo como os excertos de suporte. Como metodologia de avaliação, o Legal RAG Bench aproveita um design fatorial completo e uma nova estrutura de decomposição hierárquica de erros, permitindo comparações diretas entre as contribuições dos modelos de recuperação e de raciocínio no RAG. Avaliamos três modelos de incorporação de última geração (Isaacus' Kanon 2 Embedder, Google's Gemini Embedding 001 e OpenAI's Text Embedding 3 Large) e dois LLMs de fronteira (Gemini 3.1 Pro e GPT-5.2), concluindo que a recuperação de informação é o principal impulsionador do desempenho do RAG jurídico, com os LLMs exercendo um efeito mais moderado na correção e na fundamentação. O Kanon 2 Embedder, em particular, teve o maior impacto positivo no desempenho, melhorando a correção média em 17,5 pontos, a fundamentação em 4,5 pontos e a precisão da recuperação em 34 pontos. Observamos que muitos erros atribuídos a alucinações em sistemas jurídicos de RAG são, na verdade, desencadeados por falhas na recuperação, concluindo-se que a recuperação define o limite máximo para o desempenho de muitos sistemas modernos de RAG jurídico. Documentamos o porquê e o modo como construímos o Legal RAG Bench, juntamente com os resultados das nossas avaliações. Disponibilizamos também abertamente o nosso código e dados para auxiliar na reprodução das nossas descobertas.
Apresentamos o FireRed-OCR, uma estrutura sistemática para especializar Modelos de Linguagem e Visão (VLMs) gerais em modelos de OCR de alto desempenho. Os Grandes Modelos de Linguagem e Visão (VLMs) demonstraram capacidades gerais impressionantes, mas frequentemente sofrem de "alucinação estrutural" ao processar documentos complexos, limitando sua utilidade em aplicações industriais de OCR. Neste artigo, introduzimos o FireRed-OCR, uma estrutura nova concebida para transformar VLMs de propósito geral (baseados no Qwen3-VL) em especialistas em análise estrutural de documentos com precisão de pixel. Para enfrentar a escassez de dados estruturados de alta qualidade, construímos uma Fábrica de Dados de "Geometria + Semântica". Diferente da amostragem aleatória tradicional, nosso *pipeline* aproveita o agrupamento por características geométricas e a marcação multidimensional para sintetizar e curadar um conjunto de dados altamente balanceado, lidando eficazmente com layouts de cauda longa e tipos de documentos raros. Adicionalmente, propomos uma Estratégia de Treinamento Progressivo em Três Estágios que guia o modelo da perceção a nível de pixel até a geração de estrutura lógica. Este currículo inclui: (1) Pré-alinhamento Multi-tarefa para fundamentar a compreensão da estrutura do documento pelo modelo; (2) SFT Especializado para padronizar a saída Markdown de imagem completa; e (3) Otimização de Política Relativa de Grupo com Restrições de Formato (*Format-Constrained Group Relative Policy Optimization - GRPO*), que utiliza aprendizagem por reforço para impor validade sintática estrita e integridade estrutural (ex., fecho de tabelas, sintaxe de fórmulas). Avaliações extensivas no OmniDocBench v1.5 demonstram que o FireRed-OCR atinge um desempenho de ponta com uma pontuação geral de 92,94%, superando significativamente *baselines* fortes como DeepSeek-OCR 2 e OCRVerse em métricas de texto, fórmula, tabela e ordem de leitura. Disponibilizamos publicamente nosso código e pesos do modelo para facilitar o paradigma "VLM Geral para Especialista Estrutural Especializado".
O Reforço de Aprendizagem em Tempo de Teste (TTRL) emergiu como um paradigma promissor para a auto-evolução de Grandes Modelos de Raciocínio (LRMs), permitindo a adaptação online em entradas de teste não rotuladas por meio de recompensas autoinduzidas através de voto majoritário. No entanto, um consenso não verificado, espúrio, porém de alta frequência, pode tornar-se um sinal de recompensa enviesado e reforçado, levando a um colapso modal incorreto. Nós abordamos este modo de falha com o T³RL (Verificação por Ferramenta para Reforço de Aprendizagem em Tempo de Teste), que introduz a verificação por ferramenta em tempo de teste na estimativa de recompensa. Concretamente, um verificador utiliza uma ferramenta externa como evidência (por exemplo, da execução de código) para aumentar o peso de *rollouts* verificados em uma votação consciente da verificação, produzindo pseudo-rótulos mais confiáveis para o treinamento. Em várias dificuldades matemáticas (MATH-500, AMC e AIME 2024) e diversos tipos de *backbone*, o T³RL melhora significativamente em relação ao TTRL, com ganhos maiores em problemas mais difíceis. De forma mais ampla, o T³RL pode ser visto como uma síntese de dados online verificada, destacando a verificação por ferramenta em tempo de teste como um mecanismo chave para estabilizar a auto-evolução.
Racionais do tipo "Pensar-Responder", como o DeepSeek-R1, fizeram progressos notáveis ao aproveitar o raciocínio interno interpretável. No entanto, apesar da presença frequente de pistas autorreflexivas como "Ops!", eles permanecem vulneráveis a erros de saída durante a inferência de passagem única. Para enfrentar esta limitação, propomos um Processo Recursivo de Pensar-Responder (R-TAP) eficiente, que permite aos modelos envolverem-se em ciclos de raciocínio iterativos e gerar respostas mais precisas, indo além das abordagens convencionais de passagem única. Central para esta abordagem é um gerador de confiança que avalia a certeza das respostas do modelo e orienta melhorias subsequentes. Ao incorporar duas recompensas complementares – Recompensa por Aumento Recursivo de Confiança e Recompensa por Confiança na Resposta Final – mostramos que os modelos aprimorados com R-TAP superam consistentemente os métodos convencionais de passagem única, tanto para modelos de linguagem grandes (LLMs) quanto para modelos de visão e linguagem (VLMs). Além disso, ao analisar a frequência de expressões do tipo "Ops" nas respostas do modelo, descobrimos que os modelos com R-TAP aplicado exibem significativamente menos padrões autorreflexivos, resultando em um raciocínio no tempo de inferência mais estável e rápido. Esperamos que o R-TAP abra caminho para a evolução de métodos eficientes e elaborados para refinar os processos de raciocínio da IA futura.
A direção da atenção é uma técnica importante para controlar o foco do modelo, permitindo capacidades como o realce de instruções, onde o modelo prioriza texto especificado pelo utilizador. No entanto, os métodos existentes de direção da atenção requerem o armazenamento explícito da matriz de atenção completa, tornando-os incompatíveis com implementações eficientes em memória, como o FlashAttention. Introduzimos a Amplificação Espectral de Chaves por Edição (SEKA), um método de direção sem treinamento que aborda esta questão editando diretamente os *embeddings* de chave antes do cálculo da atenção. A SEKA utiliza decomposição espectral para direcionar os *embeddings* de chave para direções latentes que amplificam os escores de atenção para determinados *tokens*. Estendemos isto para a SEKA Adaptativa (AdaSEKA), uma variante adaptativa à consulta que utiliza um mecanismo de encaminhamento sem treinamento para combinar dinamicamente múltiplos subespaços de especialistas com base na intenção semântica do *prompt*. Nossos experimentos mostram que ambos os métodos superam significativamente baselines robustos em benchmarks padrão de direção, enquanto adicionam uma sobrecarga de latência e memória muito menor, mantendo a compatibilidade com a atenção otimizada.
Apresentamos o V-SONAR, um espaço de incorporação visão-linguagem estendido a partir do espaço de incorporação apenas para texto SONAR (Omnilingual Embeddings Team et al., 2026), que suporta 1500 idiomas em texto e 177 idiomas em fala. Para construir o V-SONAR, propomos um pipeline de alinhamento *post-hoc* que mapeia as representações de um codificador de visão existente para o espaço SONAR. Avaliamos minuciosamente o V-SONAR e demonstramos que suas incorporações alcançam desempenho competitivo na recuperação de texto para vídeo. Equipado com o decodificador de texto OMNISONAR, o V-SONAR supera ainda mais os modelos estado da arte em tarefas de descrição de vídeo, incluindo DREAM-1K (BLEU 23,9 vs. 19,6) e PE-VIDEO (BLEU 39,0 vs. 30,0). Aproveitando o V-SONAR, demonstramos primeiro que o *Large Concept Model* (LCM; LCM team et al. 2024), que opera no SONAR e foi treinado apenas com texto em inglês, pode realizar a compreensão de conceitos visuais únicos e múltiplos de maneira *zero-shot*. Finalmente, apresentamos o V-LCM, que estende o LCM com ajuste fino por instrução visão-linguagem. O V-LCM codifica entradas de visão e linguagem em uma sequência unificada de incorporações latentes por meio do V-SONAR e do SONAR, e é treinado com o mesmo objetivo de difusão latente para previsão da próxima incorporação usado no pré-treinamento apenas com texto do LCM. Experimentos em uma mistura de dados de ajuste fino por instrução multimodal e multilíngue em larga escala destacam o potencial do V-LCM: ele equipara-se aos modelos estado da arte visão-linguagem em tarefas de descrição de imagem/vídeo e resposta a perguntas, ao mesmo tempo que supera significativamente seu desempenho em 61 idiomas, de recursos ricos a escassos, do total de 62 idiomas testados.
Quando uma descrição textual é estendida com um detalhe adicional, a similaridade imagem-texto deve diminuir se esse detalhe estiver incorreto. Demonstramos que os codificadores duais no estilo CLIP frequentemente violam essa intuição: anexar um objeto ou relação plausível, porém incorreto, a uma descrição que, de outra forma, estaria correta, pode aumentar a pontuação de similaridade. Denominamos tais casos de meias-verdades. No COCO, o CLIP prefere a descrição mais curta e correta apenas 40,6% das vezes, e o desempenho cai para 32,9% quando o detalhe adicionado é uma relação. Rastreamos essa vulnerabilidade até a supervisão fraca sobre partes das legendas: o treinamento contrastivo alinha frases completas, mas não impõe explicitamente que entidades e relações individuais sejam fundamentadas. Propomos o CS-CLIP (CLIP com Supervisão de Componentes), que decompõe as legendas em unidades de entidade e relação, constrói uma alternativa minimamente editada para cada unidade e ajusta o modelo para pontuar a unidade correta acima de sua alternativa, preservando a inferência padrão do codificador duplo. O CS-CLIP eleva a precisão para meias-verdades para 69,3% e melhora o desempenho médio em benchmarks composicionais estabelecidos em 5,7 pontos, sugerindo que reduzir erros de meias-verdades está alinhado com ganhos mais amplos na compreensão composicional. O código está publicamente disponível em: https://github.com/kargibora/CS-CLIP
Este relatório apresenta o CharacterFlywheel, um processo iterativo de roda de inércia (flywheel) para aprimorar modelos de linguagem de grande escala (LLMs) em aplicações de chat social em produção no Instagram, WhatsApp e Messenger. Partindo do LLaMA 3.1, refinamos modelos ao longo de 15 gerações utilizando dados de tráfego real de usuários, tanto internos quanto externos. Por meio de implantações contínuas de julho de 2024 a abril de 2025, conduzimos testes A/B controlados de 7 dias que mostraram melhorias consistentes de engajamento: 7 dos 8 novos modelos implantados demonstraram ganho positivo em relação à linha de base, com os de melhor desempenho alcançando até 8,8% de melhoria na amplitude do engajamento e 19,4% na sua profundidade. Também observamos ganhos substanciais em capacidade de direcionamento (steerability), com o seguimento de instruções aumentando de 59,2% para 84,8% e as violações de instruções diminuindo de 26,6% para 5,8%. Detalhamos o processo CharacterFlywheel, que integra curadoria de dados, modelagem de recompensa para estimar e interpolar o cenário das métricas de engajamento, ajuste fino supervisionado (SFT), aprendizado por reforço (RL) e avaliação tanto offline quanto online para garantir progresso confiável em cada etapa de otimização. Também discutimos nossos métodos para prevenção de sobreajuste e para navegar pelas dinâmicas de produção em larga escala. Essas contribuições avançam o rigor científico e a compreensão dos LLMs em aplicações sociais que atendem a milhões de usuários.
Os LLMs transformaram fundamentalmente a recuperação densa, atualizando os modelos de base de codificadores discriminativos para arquiteturas generativas. No entanto, uma desconexão crítica permanece: embora os LLMs possuam fortes capacidades de raciocínio, os recuperadores atuais utilizam-nos predominantemente como codificadores estáticos, deixando o seu potencial para raciocínio complexo inexplorado. Para resolver isto, as abordagens existentes normalmente adotam pipelines de reescrita-e-recuperação para gerar racionalidades de Cadeia de Pensamento (CoT) explícitas antes da recuperação. No entanto, isto incorre em latência proibitiva. Neste artigo, propomos o LaSER, uma nova estrutura de auto-distilação que internaliza o raciocínio explícito no espaço latente dos recuperadores densos. Operando numa arquitetura de LLM partilhada, o LaSER introduz um mecanismo de treino de dupla perspetiva: uma perspetiva Explícita que codifica explicitamente os percursos de raciocínio fundamentais (ground-truth), e uma perspetiva Latente que realiza pensamento implícito latente. Para colmatar o fosso entre estas perspetivas, concebemos uma estratégia de alinhamento multi-granular. Para além do alinhamento padrão de saída, introduzimos um mecanismo de alinhamento de trajetória que sincroniza os estados latentes intermédios do percurso latente com a progressão semântica dos segmentos de raciocínio explícito. Isto permite ao recuperador pensar de forma silenciosa e eficaz sem geração de texto autorregressiva. Experiências extensas em benchmarks de domínio interno e externo intensivos em raciocínio demonstram que o LaSER supera significativamente as linhas de base state-of-the-art. Além disso, análises em diversas arquiteturas e escalas de modelo validam a robustez da nossa abordagem, confirmando que a nossa estrutura de aprendizagem unificada é essencial para eliciar um pensamento latente eficaz. O nosso método combina com sucesso a profundidade de raciocínio dos pipelines de CoT explícitos com a eficiência inferencial dos recuperadores densos padrão.
Identificamos o raciocínio sobre oclusão como um aspeto fundamental, mas negligenciado, para a geração condicionada por layouts 3D. É essencial para sintetizar objetos parcialmente ocluídos com geometria e escala consistentes em profundidade. Embora os métodos existentes possam gerar cenas realistas que seguem os layouts de entrada, muitas vezes falham em modelar oclusões precisas entre objetos. Propomos o SeeThrough3D, um modelo para geração condicionada por layout 3D que modela explicitamente as oclusões. Introduzimos uma representação de cena 3D consciente da oclusão (OSCR), onde os objetos são representados como caixas 3D translúcidas posicionadas dentro de um ambiente virtual e renderizadas a partir do ponto de vista da câmara desejado. A transparência codifica as regiões ocultas dos objetos, permitindo que o modelo raciocine sobre as oclusões, enquanto o ponto de vista renderizado fornece controlo explícito da câmara durante a geração. Condicionamos um modelo pré-treinado de geração de imagem texto-para-imagem baseado em fluxo, introduzindo um conjunto de *tokens* visuais derivados da nossa representação 3D renderizada. Além disso, aplicamos autoatenção mascarada para ligar com precisão cada *bounding box* de objeto à sua descrição textual correspondente, permitindo a geração precisa de múltiplos objetos sem mistura de atributos. Para treinar o modelo, construímos um conjunto de dados sintético com diversas cenas multiobjeto com fortes oclusões entre objetos. O SeeThrough3D generaliza eficazmente para categorias de objetos não vistas e permite um controlo preciso do layout 3D com oclusões realistas e controlo consistente da câmara.
O treinamento em dados simbólicos verificáveis é uma abordagem promissora para expandir a fronteira do raciocínio dos modelos de linguagem para além do que os *corpora* de pré-treinamento padrão oferecem. No entanto, os geradores procedurais existentes frequentemente dependem de quebra-cabeças ou modelos fixos e não fornecem a amplitude distribucional necessária em escala. Apresentamos o *Reasoning Core*, um conjunto escalável que gera proceduralmente dados de raciocínio simbólico verificáveis em domínios formais fundamentais: planeamento PDDL sobre domínios randomizados, lógica de primeira ordem com igualdade, análise sintática e geração de gramáticas livres de contexto, raciocínio causal sobre redes bayesianas aleatórias e sistemas de equações. Cada tarefa é emparelhada com um solucionador externo para verificação rigorosa e admite controle contínuo de dificuldade para o desenho curricular. Os exemplos podem, opcionalmente, incluir traços de raciocínio derivados do solucionador, permitindo o treinamento supervisionado desde os estágios mais iniciais do pré-treinamento, e a mesma interface fornece funções de recompensa verificáveis para aprendizagem por reforço. As nossas experiências mostram que misturar dados do *Reasoning Core* no pré-treinamento melhora o raciocínio a jusante, preservando, ou melhorando ligeiramente, a qualidade da modelação da linguagem. Avaliações *zero-shot* confirmam que estas tarefas desafiam modelos de fronteira, como o GPT-5. O código e os dados estão publicamente disponíveis sob a licença MIT.
Apresentamos o Classroom Final Exam (CFE), um benchmark multimodal para avaliar as capacidades de raciocínio de modelos de linguagem de grande escala em mais de 20 domínios STEM. O CFE é compilado a partir de problemas autênticos e repetidamente utilizados em tarefas de casa e exames universitários, juntamente com soluções de referência fornecidas pelos instrutores das disciplinas. O CFE representa um desafio significativo mesmo para os modelos de ponta: o recém-lançado Gemini-3.1-pro-preview alcança uma precisão geral de 59,69%, enquanto o segundo melhor modelo, Gemini-3-flash-preview, atinge 55,46%, deixando um espaço considerável para melhorias. Para além dos resultados do ranking, realizamos uma análise diagnóstica decompondo as soluções de referência em fluxos de raciocínio. Verificamos que, embora os modelos de ponta frequentemente respondam corretamente a subquestões intermédias, eles lutam para derivar e manter de forma confiável os estados intermédios corretos ao longo de soluções com múltiplos passos. Observamos ainda que as soluções geradas pelos modelos tipicamente têm mais etapas de raciocínio do que as fornecidas pelo instrutor, indicando uma eficiência de passos subótima e um maior risco de acumulação de erros. Os dados e o código estão disponíveis em https://github.com/Analogy-AI/CFE_Bench.
Apresentamos o Synthetic Visual Genome 2 (SVG2), um grande conjunto de dados de grafos de cena panópticos em vídeo. O SVG2 contém mais de 636 mil vídeos com 6,6 milhões de objetos, 52,0 milhões de atributos e 6,7 milhões de relações, representando um aumento de uma ordem de grandeza na escala e diversidade em relação aos conjuntos de dados anteriores de grafos de cena espaço-temporais. Para criar o SVG2, projetamos um *pipeline* totalmente automatizado que combina segmentação panóptica multiescala, rastreamento de trajetórias online-offline com descoberta automática de novos objetos, análise semântica por trajetória e inferência de relações espaço-temporais baseada no GPT-5. Com base neste recurso, treinamos o TRaSER, um modelo de geração de grafos de cena em vídeo. O TRaSER amplia os Modelos de Linguagem Visual (VLMs) com um mecanismo de organização de *tokens* alinhados a trajetórias e novos módulos: um reamostrador de trajetórias de objetos e um reamostrador de janela temporal para converter vídeos brutos e trajetórias panópticas em grafos de cena espaço-temporais compactos em uma única passagem direta. O reamostrador de janela temporal vincula os *tokens* visuais a segmentos curtos de trajetória para preservar o movimento local e a semântica temporal, enquanto o reamostrador de trajetórias de objetos agrega trajetórias inteiras para manter o contexto global dos objetos. Nos conjuntos de dados de teste PVSG, VIPSeg, VidOR e SVG2, o TRaSER melhora a detecção de relações em +15 a 20%, a previsão de objetos em +30 a 40% em relação às *baselines* de código aberto mais robustas e em +13% sobre o GPT-5, e a previsão de atributos em +15%. Quando os grafos de cena gerados pelo TRaSER são enviados para um VLM para resposta a perguntas em vídeo, ele proporciona um ganho de precisão absoluta de +1,5 a 4,6% em relação ao uso apenas de vídeo ou de vídeo aumentado com grafos de cena gerados pelo Qwen2.5-VL, demonstrando a utilidade de grafos de cena espaço-temporais explícitos como uma representação intermediária.
Os recentes modelos de difusão texto-imagem (T2I) alcançam um realismo notável, mas o alinhamento fiel entre prompt e imagem continua a ser um desafio, particularmente para prompts complexos com múltiplos objetos, relações e atributos de granularidade fina. Os métodos de escala *free-training* existentes no momento da inferência dependem de orçamentos de iteração fixos que não se adaptam à dificuldade do prompt, enquanto os modelos sintonizados por reflexão exigem conjuntos de dados de reflexão cuidadosamente curados e um extenso ajuste fino conjunto de modelos de difusão e de visão e linguagem, muitas vezes sobreajustando-se aos dados de caminhos de reflexão e carecendo de transferibilidade entre modelos. Apresentamos o RAISE (*Requirement-Adaptive Self-Improving Evolution*), um quadro evolutivo de autoaperfeiçoamento, *training-free* e orientado por requisitos para geração adaptativa de T2I. O RAISE formula a geração de imagens como um processo de escalonamento adaptativo orientado por requisitos, evoluindo uma população de candidatos no momento da inferência através de um conjunto diversificado de ações de refinamento — incluindo reescrita de prompt, reamostragem de ruído e edição instrucional. Cada geração é verificada em relação a uma lista de verificação estruturada de requisitos, permitindo que o sistema identifique dinamicamente itens não satisfeitos e aloque mais computação apenas onde necessário. Isto alcança um escalonamento adaptativo no tempo de teste que alinha o esforço computacional com a complexidade semântica da consulta. No GenEval e no DrawBench, o RAISE atinge um alinhamento de última geração (0,94 no GenEval geral) enquanto incorre em menos amostras geradas (reduzidas em 30-40%) e chamadas VLM (reduzidas em 80%) do que as linhas de base anteriores de escalonamento e sintonizadas por reflexão, demonstrando um autoaperfeiçoamento multi-round eficiente, generalizável e agnóstico ao modelo. O código está disponível em https://github.com/LiyaoJiang1998/RAISE.
A resposta visual a perguntas baseada em conhecimento (KB-VQA) demonstra potencial significativo para lidar com tarefas que exigem grande conhecimento. No entanto, surgem conflitos entre o conhecimento paramétrico estático nos modelos de linguagem visual (VLMs) e as informações recuperadas dinamicamente, devido ao conhecimento estático do modelo proveniente do pré-treinamento. As saídas ou ignoram os contextos recuperados ou exibem uma integração inconsistente com o conhecimento paramétrico, representando desafios substanciais para a KB-VQA. Os métodos atuais de mitigação de conflitos de conhecimento, adaptados principalmente de abordagens baseadas em linguagem, concentram-se em conflitos a nível de contexto através de estratégias de *prompting* elaboradas ou mecanismos de decodificação sensíveis ao contexto. Contudo, estes métodos negligenciam o papel crucial da informação visual nos conflitos e sofrem com contextos recuperados redundantes, o que prejudica a identificação precisa de conflitos e a sua mitigação eficaz. Para superar estas limitações, propomos o CC-VQA: um novo método livre de treino, consciente de conflitos e correlações, para KB-VQA. O nosso método compreende dois componentes principais: (1) Raciocínio Contextual de Conflito Centrado na Visão, que realiza uma análise de conflito visual-semântico através de contextos de conhecimento internos e externos; e (2) Codificação e Decodificação Guiadas por Correlação, que apresenta compressão de codificação posicional para declarações de baixa correlação e decodificação adaptativa usando uma pontuação de conflito ponderada pela correlação. Avaliações extensivas nos *benchmarks* E-VQA, InfoSeek e OK-VQA demonstram que o CC-VQA alcança um desempenho de ponta, obtendo melhorias de precisão absoluta de 3,3% a 6,4% em comparação com os métodos existentes. O código está disponível em https://github.com/cqu-student/CC-VQA.
A criação de ambientes digitais interativos para jogos, robótica e simulação depende de objetos 3D articulados cuja funcionalidade emerge da sua geometria de partes e da sua estrutura cinemática. No entanto, as abordagens existentes permanecem fundamentalmente limitadas: os métodos de reconstrução baseados em otimização exigem um ajuste lento e individualizado de juntas por objeto e normalmente lidam apenas com objetos simples de junta única, enquanto os métodos baseados em recuperação montam partes a partir de uma biblioteca fixa, resultando em geometria repetitiva e baixa generalização. Para enfrentar esses desafios, apresentamos o ArtLLM, uma nova estrutura para gerar recursos articulados de alta qualidade diretamente a partir de malhas 3D completas. Em seu núcleo está um modelo de linguagem grande multimodal 3D, treinado em um conjunto de dados de articulação em larga escala, curado a partir de conjuntos de dados de articulação existentes e de objetos gerados proceduralmente. Diferente de trabalhos anteriores, o ArtLLM prevê de forma autoregressiva um número variável de partes e juntas, inferindo sua estrutura cinemática de maneira unificada a partir da nuvem de pontos do objeto. Este layout consciente da articulação condiciona, então, um modelo generativo 3D para sintetizar geometrias de partes de alta fidelidade. Experimentos no conjunto de dados PartNet-Mobility mostram que o ArtLLM supera significativamente os métodos state-of-the-art tanto na precisão do layout de partes quanto na previsão de juntas, ao mesmo tempo que generaliza de forma robusta para objetos do mundo real. Por fim, demonstramos sua utilidade na construção de gêmeos digitais, destacando seu potencial para o aprendizado de robôs em escala.
Os recentes avanços na geração de vídeo abriram novas possibilidades para a simulação macroscópica de sistemas dinâmicos complexos, mas a sua aplicação a fenómenos microscópicos permanece largamente inexplorada. A simulação em microescala apresenta um grande potencial para aplicações biomédicas, como a descoberta de fármacos, sistemas de órgão-em-chip e estudos de mecanismos de doenças, ao mesmo tempo que mostra potencial na educação e na visualização interativa. Neste trabalho, apresentamos o MicroWorldBench, um benchmark multinível baseado em rubricas para tarefas de simulação em microescala. O MicroWorldBench permite uma avaliação sistemática baseada em rubricas através de 459 critérios únicos anotados por especialistas, abrangendo múltiplas tarefas de simulação em microescala (por exemplo, processos a nível de órgão, dinâmicas celulares e interações moleculares subcelulares) e dimensões de avaliação (por exemplo, fidelidade científica, qualidade visual, seguimento de instruções). O MicroWorldBench revela que os modelos atuais de geração de vídeo (estado da arte) falham na simulação em microescala, mostrando violações das leis físicas, inconsistência temporal e desalinhamento com os critérios especializados. Para superar estas limitações, construímos o MicroSim-10K, um conjunto de dados de simulação de alta qualidade e verificado por especialistas. Aproveitando este conjunto de dados, treinamos o MicroVerse, um modelo de geração de vídeo adaptado para simulação em microescala. O MicroVerse é capaz de reproduzir com precisão mecanismos complexos em microescala. O nosso trabalho introduz pela primeira vez o conceito de Simulação do Micromundo e apresenta uma prova de conceito, abrindo caminho para aplicações em biologia, educação e visualização científica. O nosso trabalho demonstra o potencial das simulações educacionais em microescala de mecanismos biológicos. Os nossos dados e código estão publicamente disponíveis em https://github.com/FreedomIntelligence/MicroVerse.
O desenvolvimento de sistemas de reconhecimento automático de fala (ASR) para idiomas com poucos recursos é dificultado pela escassez de corpora transcritos. Este estudo de prova de conceito explora as músicas como uma fonte de dados não convencional, mas promissora, para ASR do cazaque. Organizamos um conjunto de dados de 3.013 pares áudio-texto (cerca de 4,5 horas) de 195 músicas de 36 artistas, segmentados ao nível da linha de letra. Usando o Whisper como reconhecedor base, afinamos modelos em sete cenários de treino envolvendo Músicas, o Common Voice Corpus (CVC) e o FLEURS, e avaliamo-los em três benchmarks: CVC, FLEURS e o Kazakh Speech Corpus 2 (KSC2). Os resultados mostram que o afinação baseada em músicas melhora o desempenho em comparação com as linhas de base *zero-shot*. Por exemplo, o Whisper Large-V3 Turbo treinado numa mistura de Músicas, CVC e FLEURS atinge 27,6% de WER normalizado no CVC e 11,8% no FLEURS, enquanto reduz para metade o erro no KSC2 (39,3% vs. 81,2%) em relação ao modelo *zero-shot*. Embora estes ganhos permaneçam abaixo dos obtidos por modelos treinados no corpus KSC2 de 1.100 horas, eles demonstram que mesmo misturas modestas de música e fala podem produzir melhorias de adaptação significativas em ASR de baixos recursos. O conjunto de dados é disponibilizado no Hugging Face para fins de investigação sob uma licença condicionada e não comercial.
O Ajuste Federado de Instruções (FIT) permite o ajuste colaborativo de instruções em modelos de linguagem grandes entre várias organizações (clientes) em um ambiente de silos cruzados, sem exigir o compartilhamento de instruções privadas. Descobertas recentes sobre *backdoors* naturais e o método existente de coleta de dados de treinamento sugerem que amostras envenenadas podem ser generalizadas e inadvertidamente incorporadas em conjuntos de dados do mundo real, potencialmente distribuídas por todos os clientes, mesmo que estes sejam benignos. Este trabalho examina sistematicamente essa ameaça no FIT, demonstrando que as defesas existentes são ineficazes quando os dados envenenados estão intercalados entre todos os clientes. Abordar esse desafio envolve duas grandes dificuldades: identificar as características distintivas das amostras envenenadas em cada cliente e permitir uma defesa colaborativa quando alguns clientes são fortemente dominados por amostras envenenadas. Para resolver essas dificuldades, identificamos gradientes no domínio da frequência como um sinal robusto para distinguir dados envenenados. Propomos ainda um mecanismo global de agrupamento secundário que facilita a identificação colaborativa de amostras envenenadas entre os clientes. Em resumo, este artigo introduz o ProtegoFed, o primeiro framework FIT livre de *backdoors* que detecta, remove e até purifica com precisão dados envenenados intercalados entre os clientes durante o treinamento. Resultados experimentais em quatro conjuntos de dados de FL mostram que o ProtegoFed identifica entre 92,00% e 100,00% das amostras envenenadas, reduz a taxa de sucesso do ataque para quase zero e mantém a utilidade na tarefa principal. O código está disponível em https://github.com/dongdongzhaoUP/ProtegoFed.
Os Modelos de Fundação Geoespaciais (GFMs) foram avaliados em diversas tarefas de observação da Terra, abrangendo múltiplos domínios, e demonstraram forte potencial para produzir mapas confiáveis mesmo com etiquetas esparsas. No entanto, a avaliação comparativa de GFMs para aplicações na Criosfera tem sido limitada, principalmente devido à falta de conjuntos de dados de avaliação adequados. Para preencher esta lacuna, introduzimos o Cryo-Bench, um benchmark compilado para avaliar o desempenho de GFMs em componentes criosféricos fundamentais. O Cryo-Bench inclui glaciares cobertos por detritos, lagos glaciares, gelo marinho e frentes de desprendimento, abrangendo múltiplos sensores e amplas regiões geográficas. Avaliamos 14 GFMs juntamente com linhas de base UNet e ViT para avaliar as suas vantagens, limitações e estratégias de utilização ideais. Com um codificador congelado, a UNet alcança o mIoU médio mais alto de 66,38, seguida pela TerraMind com 64,02, nos cinco conjuntos de dados de avaliação incluídos no Cryo-Bench. No cenário de poucos exemplos (10% dos dados de entrada), GFMs como DOFA e TerraMind superam a UNet, alcançando pontuações mIoU de 59,53, 56,62 e 56,60, respetivamente, em comparação com os 56,60 da U-Net. Ao ajustar totalmente os GFMs, observamos um desempenho inconsistente entre conjuntos de dados e modelos. No entanto, o ajuste da taxa de aprendizagem juntamente com o fine-tuning melhora substancialmente o desempenho dos GFMs. Por exemplo, a avaliação em dois conjuntos de dados representativos (GLID e CaFFe) mostra uma melhoria relativa média de 12,77%. Apesar de terem uma representação mínima da Criosfera nos seus dados de pré-treinamento, os GFMs exibem capacidades notáveis de adaptação de domínio e produzem resultados significativos em várias tarefas. Com base nas nossas descobertas, recomendamos o fine-tuning do codificador com otimização de hiperparâmetros para obter o melhor desempenho possível, utilizando codificadores congelados quando os utilizadores necessitam de resultados rápidos sem experimentação extensiva. (https://github.com/Sk-2103/Cryo-Bench{GitHub}).
O desempenho lactacional das cabras leiteiras Saanen, conhecidas pela sua elevada produção de leite, está intrinsecamente ligado ao seu tamanho corporal, tornando a medição corporal 3D precisa essencial para avaliar o potencial produtivo. No entanto, os métodos de reconstrução existentes carecem de dados 3D autênticos específicos para caprinos. Para colmatar esta limitação, criámos o conjunto de dados FemaleSaanenGoat, contendo vídeos RGBD sincronizados de oito perspetivas de 55 cabras Saanen fêmeas (6-18 meses). Utilizando o método DynamicFusion multi-perspetiva, fundimos sequências de nuvens de pontos não rígidas e ruidosas em digitalizações 3D de alta fidelidade, superando os desafios decorrentes de superfícies irregulares e movimentos rápidos. Com base nestas digitalizações, desenvolvemos o SaanenGoat, um modelo paramétrico de forma 3D especificamente concebido para cabras Saanen fêmeas. Este modelo apresenta um modelo refinado com 41 articulações esqueléticas e uma representação melhorada do úbere, registado com os nossos dados de digitalização. Um espaço de forma abrangente, construído a partir de 48 cabras, permite uma representação precisa de diversas variações individuais. Com a ajuda do modelo SaanenGoat, obtivemos reconstrução 3D de alta precisão a partir de entrada RGBD de visão única e alcançámos a medição automatizada de seis dimensões corporais críticas: comprimento corporal, altura, largura do peito, perímetro torácico, largura da anca e altura da anca. Os resultados experimentais demonstram a precisão superior do nosso método tanto na reconstrução 3D como na medição corporal, apresentando um novo paradigma para aplicações de visão 3D em larga escala na pecuária de precisão.
A aprendizagem por observação requer que um agente aprenda a executar uma tarefa referenciando apenas observações da tarefa realizada. Este trabalho investiga o cenário equivalente na aprendizagem de robôs do mundo real, onde não se assume o acesso a recompensas projetadas manualmente nem a ações do demonstrador. Para abordar este cenário com restrições de dados, este trabalho apresenta um algoritmo de Aprendizagem por Reforço Inverso (IRL) baseado em planejamento para modelagem do mundo a partir apenas de observação e interação. Experimentos conduzidos inteiramente no mundo real demonstram que este paradigma é eficaz para aprender tarefas de manipulação baseadas em imagem a partir do zero em menos de uma hora, sem assumir conhecimento prévio, pré-treinamento ou dados de qualquer tipo além das observações da tarefa. Além disso, este trabalho demonstra que a representação do modelo de mundo aprendida é capaz de aprendizagem por transferência online no mundo real a partir do zero. Em comparação com abordagens existentes, incluindo IRL, RL e Clonagem de Comportamento (BC), que possuem premissas mais restritivas, a abordagem proposta demonstra uma eficiência amostral e taxas de sucesso significativamente maiores, permitindo um caminho prático para a modelagem e planejamento online do mundo a partir de observação e interação. Vídeos e mais informações em: https://uwrobotlearning.github.io/mpail2/.