Artigos de pesquisa em IA selecionados diariamente com traduções
O cenário atual de modelos de geração de imagens de alto desempenho é dominado por sistemas proprietários, como o Nano Banana Pro e o Seedream 4.0. As principais alternativas de código aberto, incluindo Qwen-Image, Hunyuan-Image-3.0 e FLUX.2, são caracterizadas por contagens massivas de parâmetros (20B a 80B), tornando-as impraticáveis para inferência e *fine-tuning* em hardware de nível consumidor. Para preencher esta lacuna, propomos o Z-Image, um modelo generativo de base eficiente com 6B de parâmetros, construído sobre uma arquitetura *Scalable Single-Stream Diffusion Transformer* (S3-DiT) que desafia o paradigma do "escalonamento a qualquer custo". Otimizando sistematicamente todo o ciclo de vida do modelo – desde uma infraestrutura de dados curada até um currículo de treinamento simplificado – concluímos o fluxo de trabalho completo de treinamento em apenas 314K horas de GPU H800 (aproximadamente US$ 630K). Nosso esquema de destilação em poucos passos com pós-treinamento por recompensa produz ainda o Z-Image-Turbo, oferecendo tanto latência de inferência submilissegundo em uma GPU H800 de nível empresarial quanto compatibilidade com hardware de nível consumidor (<16GB de VRAM). Adicionalmente, nosso paradigma de pré-treinamento *omni* também permite o treinamento eficiente do Z-Image-Edit, um modelo de edição com capacidades impressionantes de seguimento de instruções. Experimentos qualitativos e quantitativos demonstram que nosso modelo alcança desempenho comparável ou superior ao dos principais concorrentes em várias dimensões. Mais notavelmente, o Z-Image exibe capacidades excepcionais em geração de imagens fotorrealistas e renderização de texto bilíngue, entregando resultados que rivalizam com modelos comerciais de primeira linha, demonstrando assim que resultados de última geração são alcançáveis com uma sobrecarga computacional significativamente reduzida. Disponibilizamos publicamente nosso código, pesos e demonstração online para fomentar o desenvolvimento de modelos generativos acessíveis, econômicos e ainda assim de última geração.
Os grandes modelos de linguagem têm feito progressos significativos no raciocínio matemático, que serve como um importante campo de teste para a IA e poderia impactar a pesquisa científica se avançado ainda mais. Ao escalar o raciocínio com aprendizado por reforço que recompensa respostas finais corretas, os LLMs evoluíram de um desempenho fraco para saturar competições de raciocínio quantitativo como AIME e HMMT em um ano. No entanto, essa abordagem enfrenta limitações fundamentais. Buscar maior precisão na resposta final não resolve um problema-chave: respostas corretas não garantem um raciocínio correto. Além disso, muitas tarefas matemáticas, como a prova de teoremas, exigem derivação rigorosa passo a passo em vez de respostas numéricas, tornando as recompensas por resposta final inaplicáveis. Para ampliar os limites do raciocínio profundo, acreditamos ser necessário verificar a abrangência e o rigor do raciocínio matemático. A autoverificação é particularmente importante para escalar o cálculo em tempo de teste, especialmente para problemas em aberto sem soluções conhecidas. Rumo a um raciocínio matemático autoverificável, investigamos como treinar um verificador preciso e fiel baseado em LLM para prova de teoremas. Em seguida, treinamos um gerador de provas usando o verificador como modelo de recompensa, incentivando o gerador a identificar e resolver tantos problemas quanto possível em suas próprias provas antes de finalizá-las. Para manter a lacuna geração-verificação à medida que o gerador se torna mais forte, propomos escalar o cálculo de verificação para rotular automaticamente novas provas difíceis de verificar, criando dados de treinamento para melhorar ainda mais o verificador. Nosso modelo resultante, DeepSeekMath-V2, demonstra fortes capacidades de prova de teoremas, alcançando pontuações de nível ouro na IMO 2025 e CMO 2024 e um quase perfeito 118/120 na Putnam 2024 com cálculo escalonado em tempo de teste.
Os avanços recentes em modelos de edição de imagens têm demonstrado progresso notável. Um design arquitetônico comum acopla um codificador de modelo de linguagem grande multimodal (MLLM) a um decodificador de difusão, como observado em sistemas como Step1X-Edit e Qwen-Image-Edit, nos quais o MLLM codifica tanto a imagem de referência quanto a instrução, mas permanece congelado durante o treinamento. Neste trabalho, demonstramos que desbloquear as capacidades de raciocínio do MLLM pode expandir ainda mais os limites dos modelos de edição. Especificamente, exploramos dois mecanismos de raciocínio, pensamento e reflexão, que aprimoram a compreensão de instruções e a precisão da edição. Com base nisso, nosso framework proposto permite a edição de imagens em um loop de pensamento-edição-reflexão: o mecanismo de pensamento aproveita o conhecimento mundial do MLLM para interpretar instruções abstratas, enquanto a reflexão revisa os resultados da edição, corrige automaticamente manipulações não intencionais e identifica a rodada de parada. Experimentos extensivos demonstram que nossa abordagem de raciocínio alcança ganhos significativos de desempenho, com melhorias de ImgEdit (+4,3%), GEdit (+4,7%) e Kris (+8,2%) ao inicializar nossa DiT a partir do Step1X-Edit (ReasonEdit-S), e também supera métodos anteriores de código aberto tanto em GEdit quanto em Kris quando integrado ao Qwen-Image-Edit (ReasonEdit-Q).
Apresentamos o Vision Bridge Transformer (ViBT), uma instanciação em larga escala dos Modelos de Ponte Browniana projetada para geração condicional. Diferente dos modelos de difusão tradicionais que transformam ruído em dados, os Modelos de Ponte modelam diretamente a trajetória entre entradas e saídas, criando um paradigma eficiente de tradução de dados para dados. Ao dimensionar esses modelos para 20 bilhões e 1,3 bilhão de parâmetros, demonstramos sua eficácia para tarefas de tradução de imagem e vídeo. Para suportar essa escala, adotamos uma arquitetura Transformer e propomos um objetivo de correspondência de velocidade com variância estabilizada para treinamento robusto. Juntos, esses avanços destacam o poder do dimensionamento de Modelos de Ponte para edição de imagens baseada em instruções e tradução complexa de vídeo.
Recentemente, a geração de vídeos com múltiplas pessoas começou a ganhar destaque. Embora alguns trabalhos preliminares tenham explorado a geração de vídeos de conversação entre múltiplas pessoas dirigida por áudio, eles frequentemente enfrentam desafios devido aos altos custos de coleta de dados diversificados com múltiplas pessoas e à dificuldade de dirigir múltiplas identidades com interatividade coerente. Para enfrentar esses desafios, propomos o AnyTalker, uma estrutura de geração para múltiplas pessoas que apresenta uma arquitetura de processamento de múltiplos fluxos extensível. Especificamente, estendemos o bloco de atenção do Diffusion Transformer com um novo mecanismo de atenção com consciência de identidade que processa iterativamente pares identidade-áudio, permitindo a escalabilidade arbitrária de identidades dirigíveis. Além disso, o treinamento de modelos generativos para múltiplas pessoas exige dados massivos com múltiplas pessoas. Nossa pipeline de treinamento proposta depende exclusivamente de vídeos com uma única pessoa para aprender padrões de fala de múltiplas pessoas e refina a interatividade com apenas alguns clipes reais com múltiplas pessoas. Adicionalmente, contribuímos com uma métrica e um conjunto de dados específicos projetados para avaliar a naturalidade e a interatividade dos vídeos gerados com múltiplas pessoas. Experimentos extensivos demonstram que o AnyTalker alcança uma sincronização labial notável, qualidade visual e interatividade natural, estabelecendo um equilíbrio favorável entre os custos de dados e a escalabilidade de identidades.
Os Modelos de Linguagem Visual (VLMs) exibem uma lacuna fundamental semântico-geométrica no raciocínio espacial: eles se destacam na inferência semântica qualitativa, mas seu raciocínio opera dentro de um espaço semântico com perdas, desalinhado com a geometria de alta fidelidade. Os paradigmas atuais não conseguem preencher essa lacuna. Os métodos baseados em treinamento sofrem de um "paradoxo do oráculo", aprendendo lógica espacial falha a partir de oráculos imperfeitos. Os métodos com integração de ferramentas restringem o cálculo final, mas deixam criticamente o processo de planeamento do VLM sem restrições, resultando em planos geometricamente falhos. Neste trabalho, propomos o Agente Geometricamente Restringido (GCA), um paradigma agentivo livre de treinamento que resolve essa lacuna através da introdução de uma restrição formal de tarefa. Especificamente, separamos estrategicamente o papel do VLM em dois estágios. Primeiro, atuando como um analista semântico, o VLM traduz a consulta ambígua do usuário para a restrição formal e verificável da tarefa, que define o quadro de referência e o objetivo. Segundo, atuando como um resolvedor de tarefas, o VLM gera e executa chamadas de ferramentas estritamente dentro dos limites determinísticos definidos pela restrição. Esta estratégia de raciocínio geometricamente restringido resolve com sucesso a lacuna semântico-geométrica, produzindo um caminho de raciocínio robusto e verificável para o raciocínio espacial. Experimentos abrangentes demonstram que o GCA atinge desempenho de estado da arte em múltiplos benchmarks de raciocínio espacial, superando os métodos existentes baseados em treinamento e com integração de ferramentas em ~27%. Consulte nossa página inicial em https://gca-spatial-reasoning.github.io.
A implantação eficiente de pequenos modelos de linguagem (SLMs) é essencial para inúmeras aplicações do mundo real com restrições rigorosas de latência. Embora trabalhos anteriores sobre o design de SLMs tenham-se concentrado principalmente na redução do número de parâmetros para obter SLMs com otimização paramétrica, a eficiência em parâmetros não se traduz necessariamente em acelerações proporcionais em dispositivos reais. Este trabalho visa identificar os determinantes-chave da latência de SLMs em dispositivos reais e oferecer princípios e metodologias generalizáveis para o design e treinamento de SLMs quando a latência no dispositivo real é a consideração primária. Especificamente, identificamos dois fatores arquiteturais centrais: as proporções profundidade-largura e as escolhas de operadores. O primeiro é crucial para a latência com tamanhos de lote pequenos, enquanto o último afeta tanto a latência quanto a taxa de transferência com tamanhos de lote grandes. Diante disso, primeiro estudamos as proporções profundidade-largura ótimas para latência, com a principal descoberta de que, embora modelos profundos e estreitos geralmente atinjam melhor precisão sob o mesmo orçamento de parâmetros, eles podem não estar na fronteira de compromisso precisão-latência. Em seguida, exploramos alternativas emergentes de atenção eficiente para avaliar o seu potencial como operadores básicos candidatos. Utilizando os operadores promissores identificados, construímos um framework de busca evolutiva para descobrir automaticamente combinações ótimas de latência desses operadores dentro de SLMs híbridos, avançando assim a fronteira de precisão-latência. Além de melhorias arquiteturais, aprimoramos ainda mais o treinamento de SLMs usando uma técnica de normalização de pesos que permite atualizações de peso mais eficazes e melhora a convergência final. Combinando esses métodos, introduzimos uma nova família de SLMs híbridos, chamada Nemotron-Flash, que avança significativamente a fronteira de precisão-eficiência dos SLMs state-of-the-art, por exemplo, alcançando mais de +5,5% de precisão média, latência 1,3x/1,9x menor e taxa de transferência 18,7x/45,6x maior em comparação com Qwen3-1.7B/0.6B, respetivamente.
A destilação de modelos de difusão emergiu como uma técnica poderosa para criar geradores eficientes de poucos passos e de passo único. Entre estes, a Destilação por Correspondência de Distribuição (DMD) e suas variantes destacam-se pelo seu desempenho impressionante, amplamente atribuído ao seu mecanismo central de correspondência da distribuição de saída do estudante com a de um modelo professor pré-treinado. Neste trabalho, questionamos esta compreensão convencional. Através de uma decomposição rigorosa do objetivo de treinamento do DMD, revelamos que em tarefas complexas como a geração de texto para imagem, onde o CFG é tipicamente necessário para um desempenho desejável em poucos passos, o principal impulsionador da destilação de poucos passos não é a correspondência de distribuição, mas um componente previamente negligenciado que identificamos como Aumento de CFG (CA). Demonstramos que este termo atua como o "motor" central da destilação, enquanto o termo de Correspondência de Distribuição (DM) funciona como um "regularizador" que garante a estabilidade do treinamento e mitiga artefactos. Validamos ainda esta dissociação demonstrando que, embora o termo DM seja um regularizador altamente eficaz, ele não é único; restrições não paramétricas mais simples ou objetivos baseados em GAN podem desempenhar a mesma função de estabilização, ainda que com diferentes compensações. Esta dissociação de funções motiva uma análise mais fundamentada das propriedades de ambos os termos, conduzindo a uma compreensão mais sistemática e aprofundada. Esta nova compreensão permite-nos ainda propor modificações fundamentadas ao processo de destilação, como a dissociação dos cronogramas de ruído para o motor e o regularizador, resultando em ganhos adicionais de desempenho. Notavelmente, o nosso método foi adotado pelo projeto Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) para desenvolver um modelo de geração de imagens de topo de 8 passos, validando empiricamente a generalização e robustez das nossas descobertas.
Os modelos multimodais unificados para geração e compreensão de imagens representam um passo significativo em direção à AGI e têm atraído ampla atenção dos pesquisadores. O principal desafio desta tarefa reside na dificuldade de estabelecer um paradigma de treinamento ideal devido aos objetivos inerentemente conflitantes nas tarefas de compreensão e geração. Para aliviar esses conflitos e buscar maior desempenho, muitos pesquisadores adotam diferentes graus de desacoplamento de modelo (por exemplo, codificadores duplos de imagem, arquitetura MOE/MOT ou MLLM congelado). No entanto, o desacoplamento excessivo do modelo pode levar à perda da capacidade de geração intercalada, prejudicando a intenção original dos modelos unificados. Neste trabalho, visamos explorar como mitigar os conflitos de tarefas sem recorrer ao desacoplamento de modelo. Primeiramente, analisamos por que o desacoplamento alivia os conflitos estudando o comportamento de atenção cross-modal dos modelos. Observamos que o desacoplamento de modelo essencialmente conduz os modelos a padrões de interação multimodal específicos por tarefa, como observado em Qwen-VL e HunyuanImage, e que quanto mais completo o desacoplamento, mais consistente o comportamento se torna. Motivados por esta observação, propomos a perda de Alinhamento de Interação de Atenção (AIA), que aprende explicitamente padrões de interação multimodal específicos por tarefa durante o treinamento. Para demonstrar a generalizabilidade de nossa perda AIA, aplicamo-la a Emu3 e Janus-Pro durante as etapas de SFT e pós-treinamento, respectivamente. Sem recursos complexos adicionais, a AIA não apenas refina os padrões de atenção cross-modal, mas também impulsiona o desempenho tanto na geração quanto na compreensão.
Os modelos de difusão enfrentam um compromisso fundamental entre a qualidade da geração e a eficiência computacional. Os Modelos de Difusão Latente (LDMs) oferecem uma solução eficiente, mas sofrem com possíveis perdas de informação e treinamento não end-to-end. Em contraste, os modelos existentes no espaço de pixels dispensam os VAEs, mas são computacionalmente proibitivos para síntese de alta resolução. Para resolver este dilema, propomos o DiP, uma estrutura de difusão eficiente no espaço de pixels. O DiP desacopla a geração em uma etapa global e uma local: uma espinha dorsal de Transformer de Difusão (DiT) opera em *patches* grandes para uma construção eficiente da estrutura global, enquanto uma Cabeça Detalhadora de *Patches* leve e co-treinada aproveita as características contextuais para restaurar detalhes locais de alta granularidade. Este design sinérgico alcança eficiência computacional comparável aos LDMs sem depender de um VAE. O DiP é realizado com velocidades de inferência até 10 vezes mais rápidas do que o método anterior, enquanto aumenta o número total de parâmetros em apenas 0,3%, e alcança um score FID de 1,79 no ImageNet 256x256.
As legendas de imagens servem como substitutos eficientes do conteúdo visual em sistemas multimodais como recuperação, recomendação e pipelines de inferência agentes multi-etapas. No entanto, as práticas atuais de avaliação perdem uma questão fundamental: As legendas podem substituir as imagens em tarefas reais a jusante? Propomos um benchmark baseado em utilidade, o CaptionQA, para avaliar legendas geradas por modelos, onde a qualidade da legenda é medida pela sua capacidade de suportar tarefas a jusante. O CaptionQA é um benchmark extensível e dependente do domínio, abrangendo 4 domínios—Natural, Documento, E-commerce e IA Incorporada—cada um com taxonomias granulares (25 categorias de alto nível e 69 subcategorias) que identificam informações úteis para tarefas específicas do domínio. O CaptionQA constrói 33.027 questões de múltipla escolha densamente anotadas (50,3 por imagem em média) que exigem explicitamente informações visuais para serem respondidas, fornecendo uma sonda abrangente da utilidade da legenda. Em nosso protocolo de avaliação, um LLM responde a essas questões usando apenas legendas, medindo diretamente se as legendas preservam a utilidade a nível de imagem e são utilizáveis por um LLM a jusante. A avaliação de MLLMs state-of-the-art revela lacunas substanciais entre a imagem e a utilidade da sua legenda. Notavelmente, modelos quase idênticos em benchmarks tradicionais de imagem-QA caem até 32% na utilidade da legenda. Lançamos o CaptionQA juntamente com um pipeline de código aberto para extensão a novos domínios. O código está disponível em https://github.com/bronyayang/CaptionQA.
Este trabalho explora o desafio de construir "Máquinas que Podem Lembrar", enquadrando a memória de longo prazo como o problema da modelagem eficiente de contexto ultra longo. Argumentamos que isso requer três propriedades essenciais: esparsidade, flexibilidade de acesso aleatório e generalização de comprimento. Para abordar a modelagem de contexto ultra longo, aproveitamos a Atenção Esparsa Hierárquica (HSA), um novo mecanismo de atenção que satisfaz todas as três propriedades. Integramos a HSA em Transformers para construir o HSA-UltraLong, um modelo MoE de 8 bilhões de parâmetros treinado em mais de 8 trilhões de tokens e rigorosamente avaliado em diferentes tarefas com comprimentos de contexto intradomínio e extradomínio para demonstrar sua capacidade de lidar com contextos ultra longos. Os resultados mostram que nosso modelo tem desempenho comparável às linhas de base de atenção completa em comprimentos intradomínio, alcançando mais de 90% de precisão na maioria das tarefas de recuperação em contexto com textos de até 16 milhões de tokens. Este relatório descreve nossas percepções experimentais e problemas em aberto, contribuindo com uma base para pesquisas futuras em modelagem de contexto ultra longo.
Apresentamos modelos de fluxo adversariais, uma classe de modelos generativos que unifica modelos adversariais e modelos de fluxo. Nosso método suporta geração nativa em uma única etapa ou em múltiplas etapas e é treinado usando o objetivo adversarial. Diferente das GANs tradicionais, onde o gerador aprende um plano de transporte arbitrário entre as distribuições de ruído e de dados, nosso gerador aprende um mapeamento determinístico de ruído para dados, que é o mesmo transporte ótimo encontrado em modelos de fluxo. Isso estabiliza significativamente o treinamento adversarial. Além disso, diferentemente de métodos baseados em consistência, nosso modelo aprende diretamente a geração em uma ou poucas etapas, sem a necessidade de aprender os passos de tempo intermediários do fluxo de probabilidade para propagação. Isso economiza capacidade do modelo, reduz as iterações de treinamento e evita o acúmulo de erros. Sob a mesma configuração de 1NFE no ImageNet-256px, nosso modelo B/2 se aproxima do desempenho dos modelos baseados em consistência XL/2, enquanto nosso modelo XL/2 estabelece um novo recorde de FID de 2.38. Adicionalmente, demonstramos a possibilidade de treinamento end-to-end de modelos de 56 e 112 camadas através de repetição de profundidade, sem qualquer supervisão intermediária, e alcançamos FIDs de 2.08 e 1.94 usando uma única passagem forward, superando suas contrapartes de 2NFE e 4NFE.
Para construir um modelo Vision-Language-Action (VLA) generalizável com forte capacidade de raciocínio, uma estratégia comum é primeiro treinar um VLA especialista em demonstrações robóticas para adquirir habilidades de manipulação confiáveis e, em seguida, incorporar dados robóticos anotados mistos juntamente com dados multimodais para restaurar capacidades de raciocínio mais amplas. No entanto, observamos que o VLA de raciocínio resultante frequentemente sofre de degradação no desempenho de ação em comparação com o modelo especialista antes do ajuste fino, um fenômeno que denominamos degeneração da ação. Para resolver este problema, propomos o DualVLA, que melhora o desempenho da ação através de um pós-treinamento cuidadosamente projetado, preservando ainda a capacidade de raciocínio. Primeiro, introduzimos um método de poda de dados de dupla camada que remove o raciocínio incorporado redundante, impedindo que ele influencie negativamente a aprendizagem da ação. Para fortalecer ainda mais a geração de ações, projetamos uma estratégia de destilação adaptativa de duplo professor que atribui sinais de supervisão diferentes a diferentes domínios de dados, mantendo a capacidade de raciocínio. Para preencher a lacuna de avaliação para VLAs generalistas, também propomos o VLA Score, que desacopla a capacidade do VLA nas dimensões de raciocínio, intenção, ação e alinhamento para uma avaliação mais refinada. Os experimentos mostram que o DualVLA alcança uma taxa de sucesso média de 61,0 no SimplerEnv e uma pontuação média de 65,4 em oito benchmarks multimodais competitivos, demonstrando um equilíbrio mais forte entre a execução precisa de ações e a compreensão multimodal. Site do Projeto: https://costaliya.github.io/DualVLA/.
Os modelos de linguagem (LLMs) podem refinar suas próprias respostas? Esta questão é cada vez mais relevante, uma vez que uma ampla gama de interações reais com utilizadores envolve pedidos de refinamento. No entanto, estudos anteriores testaram maioritariamente as capacidades de refinamento dos LLMs em tarefas verificáveis, como matemática competitiva ou raciocínio simbólico com estruturas simplificadas, enquanto os utilizadores frequentemente colocam consultas abertas e fornecem diferentes graus de feedback sobre o que desejam. O recente advento de modelos de raciocínio que exibem padrões de autorreflexão nas suas cadeias de pensamento motiva ainda mais esta questão. Para analisar isto, introduzimos o RefineBench, um *benchmark* de 1.000 problemas desafiadores em 11 domínios, emparelhado com uma estrutura de avaliação baseada em listas de verificação. Avaliamos dois modos de refinamento: (1) refinamento guiado, onde é fornecido *feedback* em linguagem natural a um LLM, e (2) autorrefinamento, onde os LLMs tentam melhorar sem orientação. No cenário de autorrefinamento, mesmo LLMs de fronteira, como o Gemini 2.5 Pro e o GPT-5, atingem pontuações de base modestas de 31,3% e 29,1%, respetivamente, e a maioria dos modelos não consegue melhorar consistentemente ao longo das iterações (por exemplo, o Gemini-2.5-Pro ganha apenas +1,8%, enquanto o DeepSeek-R1 decai -0,1%). Em contraste, no refinamento guiado, tanto os LLMs proprietários como os LLMs de grande porte de pesos abertos (>70B) conseguem aproveitar o *feedback* direcionado para refinar as respostas para níveis quase perfeitos em cinco turnos. Estas descobertas sugerem que os LLMs de fronteira necessitam de avanços para refinar as suas respostas incorretas e que o RefineBench fornece um campo de testes valioso para acompanhar o progresso.
Os motores de mundo visam sintetizar vídeos longos e 3D consistentes que suportem a exploração interativa de uma cena sob movimento de câmera controlado pelo utilizador. No entanto, os sistemas existentes lutam com trajetórias 6-DoF agressivas e layouts complexos ao ar livre: eles perdem coerência geométrica de longo alcance, desviam-se do caminho pretendido ou colapsam em movimentos excessivamente conservadores. Para tal, introduzimos o Captain Safari, um motor de mundo condicionado por pose que gera vídeos através da recuperação de uma memória mundial persistente. Dado um caminho de câmera, o nosso método mantém uma memória local dinâmica e utiliza um recuperador para buscar tokens mundiais alinhados com a pose, que depois condicionam a geração de vídeo ao longo da trajetória. Este projeto permite que o modelo mantenha uma estrutura 3D estável enquanto executa com precisão manobras de câmera desafiadoras. Para avaliar este cenário, compilamos o OpenSafari, um novo conjunto de dados FPV em ambiente real que contém vídeos de drone de alta dinâmica com trajetórias de câmera verificadas, construído através de um pipeline de validação geométrica e cinemática multiestágio. Em qualidade de vídeo, consistência 3D e seguimento de trajetória, o Captain Safari supera substancialmente os geradores controlados por câmera state-of-the-art. Reduz o MEt3R de 0,3703 para 0,3690, melhora o AUC@30 de 0,181 para 0,200 e produz um FVD substancialmente inferior a todas as linhas de base controladas por câmera. Mais importante, num estudo humano com 50 participantes e 5 vias, onde anotadores selecionam o melhor resultado entre cinco modelos anonimizados, 67,6% das preferências favorecem o nosso método em todos os eixos. Os nossos resultados demonstram que a memória mundial condicionada por pose é um mecanismo poderoso para a geração de vídeo de longo horizonte e controlável, e disponibilizamos o OpenSafari como um novo e desafiador benchmark para futuras pesquisas em motores de mundo.
Num mundo globalizado, elementos culturais de diversas origens aparecem frequentemente juntos numa única cena visual. Referimo-nos a estes como cenários de mistura cultural, mas a forma como os Grandes Modelos de Visão e Linguagem (LVLMs) os percecionam permanece pouco explorada. Investigamos a mistura cultural como um desafio crítico para os LVLMs e examinamos como os modelos atuais se comportam quando itens culturais de múltiplas regiões aparecem em conjunto. Para analisar sistematicamente estes comportamentos, construímos o CultureMix, um *benchmark* de Resposta Visual a Perguntas (VQA) sobre comida com 23 mil imagens de mistura cultural geradas por difusão e validadas humanamente, abrangendo quatro subtarefas: (1) apenas comida, (2) comida+comida, (3) comida+cenário de fundo e (4) comida+comida+cenário de fundo. Avaliando 10 LVLMs, descobrimos falhas consistentes na preservação de identidades culturais individuais em contextos mistos. Os modelos mostram uma forte dependência do cenário de fundo, com uma precisão a cair 14% quando contextos culturais são adicionados às linhas de base de apenas comida, e produzem previsões inconsistentes para os mesmos alimentos em diferentes contextos. Para superar estas limitações, exploramos três estratégias de robustez. Concluímos que o *fine-tuning* supervisionado usando um conjunto de dados diversificado de mistura cultural melhora substancialmente a consistência do modelo e reduz a sensibilidade ao cenário de fundo. Apelamos a uma maior atenção aos cenários de mistura cultural como um passo crítico para o desenvolvimento de LVLMs capazes de operar de forma fiável em ambientes do mundo real culturalmente diversificados.
Os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) têm demonstrado um potencial imenso em diversas especialidades médicas; no entanto, a odontologia permanece pouco explorada, em parte devido à escassez de dados específicos do domínio, anotações especializadas em odontologia limitadas, modelagem modalidade-específica insuficiente e desafios relacionados à confiabilidade. Neste artigo, apresentamos o OralGPT-Omni, o primeiro MLLM especializado em odontologia, projetado para uma análise abrangente e confiável em diversas modalidades de imagem odontológica e tarefas clínicas. Para capturar explicitamente o raciocínio diagnóstico dos dentistas, construímos o TRACE-CoT, um conjunto de dados de cadeia de pensamento clinicamente fundamentado que espelha os processos de decisão dos radiologistas odontológicos. Esta supervisão de raciocínio, combinada com nosso paradigma de treinamento de quatro estágios proposto, fortalece substancialmente a capacidade do modelo para compreensão e análise de imagens odontológicas. Paralelamente, introduzimos o MMOral-Uni, o primeiro benchmark multimodal unificado para análise de imagem odontológica. Ele compreende 2.809 pares de pergunta-resposta de resposta livre, abrangendo cinco modalidades e cinco tarefas, oferecendo a mais abrangente suíte de avaliação até à data para MLLMs em odontologia digital. O OralGPT-Omni atinge uma pontuação geral de 51,84 no benchmark MMOral-Uni e 45,31 no benchmark MMOral-OPG, superando drasticamente as pontuações do GPT-4V. Nosso trabalho promove a odontologia inteligente e pavimenta o caminho para avanços futuros na análise de imagens odontológicas. Todo o código, benchmark e modelos serão disponibilizados publicamente.
Uma receita comum para melhorar modelos de difusão durante o teste, de modo que as amostras obtenham pontuações elevadas em relação a uma recompensa especificada pelo usuário, é introduzir o gradiente da recompensa na dinâmica da própria difusão. Este procedimento é frequentemente mal formulado, uma vez que recompensas especificadas pelo usuário geralmente só são bem definidas na distribuição de dados no final da geração. Embora soluções alternativas comuns para este problema envolvam o uso de um desruidor para estimar como uma amostra teria sido no final da geração, propomos uma solução simples para este problema trabalhando diretamente com um mapa de fluxo. Explorando uma relação entre o mapa de fluxo e o campo de velocidade que governa o transporte instantâneo, construímos um algoritmo, *Flow Map Trajectory Tilting* (FMTT), que comprovadamente realiza uma ascensão melhor na recompensa do que os métodos padrão de teste que envolvem o gradiente da recompensa. A abordagem pode ser usada para realizar amostragem exata via ponderação por importância ou uma busca fundamentada que identifica maximizadores locais da distribuição inclinada pela recompensa. Demonstramos a eficácia da nossa abordagem contra outras técnicas de antecipação e mostramos como o mapa de fluxo permite o engajamento com funções de recompensa complexas que possibilitam novas formas de edição de imagem, por exemplo, através da interface com modelos de linguagem visual.
A observação de certos segmentos em uma imagem reduz a incerteza de outros. Sua realização diminui a entropia da distribuição de cada característica remanescente do segmento, de forma análoga ao colapso da função de onda de uma partícula na mecânica quântica. Este fenômeno pode ser intuitivamente denominado *colapso de segmentos*. Para identificar quais segmentos são mais determinantes durante o colapso de uma região-alvo, aprendemos um autoencoder que seleciona suavemente um subconjunto de segmentos para reconstruir cada segmento-alvo. Mapear essas dependências aprendidas para a pontuação PageRank de cada segmento revela a ordem ideal de realização de uma imagem. Demonstramos que respeitar esta ordem beneficia vários métodos de modelagem de imagem mascarada. Primeiro, a geração autoregressiva de imagens pode ser impulsionada ao retreinar o modelo de última geração MAR. Em seguida, introduzimos uma nova configuração para classificação de imagens expondo os Vision Transformers apenas a segmentos de alto ranking na ordem de colapso. A visualização de 22% desses segmentos é suficiente para alcançar alta precisão. Com estes experimentos, propomos o colapso de segmentos como uma nova perspectiva de modelagem de imagem que promove a eficiência visual. Nosso projeto está disponível em https://github.com/wguo-ai/CoP.
Os modelos de linguagem grandes multimodais (MLLMs) estão sendo cada vez mais implantados em ambientes reais e agentivos, onde as saídas não apenas precisam ser corretas, mas também devem estar em conformidade com esquemas de dados predefinidos. Apesar dos recentes avanços na geração estruturada no domínio textual, ainda não existe um benchmark que avalie sistematicamente a extração de informações fundamentada em esquemas e o raciocínio sobre entradas visuais. Neste trabalho, realizamos um estudo abrangente das capacidades de saída estrutural visual para MLLMs com nosso benchmark SO-Bench, cuidadosamente projetado. Abrangendo quatro domínios visuais, incluindo telas de UI, imagens naturais, documentos e gráficos, o SO-Bench é construído a partir de mais de 6,5 mil esquemas JSON diversos e 1,8 mil pares imagem-esquema selecionados com qualidade verificada por humanos. Experimentos de benchmark em modelos proprietários de fronteira e de código aberto revelam lacunas persistentes na previsão de saídas precisas e compatíveis com esquemas, destacando a necessidade de um melhor raciocínio estruturado multimodal. Além do benchmarking, realizamos ainda experimentos de treinamento para melhorar substancialmente a capacidade de saída estruturada do modelo. Planejamos disponibilizar o benchmark para a comunidade.
Os modelos de linguagem grandes recentes alcançam forte desempenho de raciocínio gerando traços detalhados de cadeia de pensamento (chain-of-thought), mas isso frequentemente leva ao uso excessivo de tokens e alta latência de inferência. As abordagens de eficiência existentes normalmente focam em intervenções centradas no modelo, como aprendizado por reforço ou ajuste fino supervisionado, para reduzir a verbosidade. Em contraste, propomos uma abordagem livre de treinamento e centrada na entrada. Inspirados pela psicologia cognitiva, introduzimos a Cadeia de Pensamento Focada (F-CoT), que separa a extração de informação do processo de raciocínio. A F-CoT primeiro organiza as informações essenciais de uma consulta em um contexto estruturado e conciso e depois orienta o modelo a raciocinar exclusivamente sobre este contexto. Ao evitar a atenção a detalhes irrelevantes, a F-CoT naturalmente produz caminhos de raciocínio mais curtos. Em problemas aritméticos de enunciado, a F-CoT reduz os tokens gerados em 2 a 3 vezes, mantendo uma precisão comparável ao CoT padrão zero-shot. Esses resultados destacam a entrada estruturada como uma alavanca simples, porém eficaz, para um raciocínio mais eficiente em LLMs.
A geração de imagens guiada por referência progrediu rapidamente, no entanto, os modelos de difusão atuais ainda lutam para preservar detalhes visuais refinados ao aperfeiçoar uma imagem gerada usando uma referência. Esta limitação surge porque a compressão latente baseada em VAE descarta inerentemente informações de textura subtis, fazendo com que pistas de identidade e atributos específicos desapareçam. Além disso, abordagens de pós-edição que amplificam detalhes locais com base em métodos existentes frequentemente produzem resultados inconsistentes com a imagem original em termos de iluminação, textura ou forma. Para resolver isto, nós introduzimos , uma estrutura de refinamento consciente dos detalhes que executa dois estágios consecutivos de correção orientada por referência para melhorar a consistência a nível de píxel. Primeiro, adaptamos um editor de difusão de imagem única, ajustando-o para ingerir conjuntamente a imagem preliminar e a imagem de referência, permitindo um refinamento globalmente coerente enquanto mantém a fidelidade estrutural. Em seguida, aplicamos aprendizagem por reforço para fortalecer ainda mais a capacidade de edição localizada, otimizando explicitamente para precisão de detalhes e consistência semântica. Experiências extensivas demonstram que melhora significativamente o alinhamento com a referência e a preservação de detalhes refinados, produzindo edições fiéis e visualmente coerentes que superam tanto modelos de código aberto como comerciais em benchmarks desafiadores de restauração guiada por referência.
Apresentamos o Split-then-Merge (StM), uma nova estrutura concebida para melhorar o controlo na composição generativa de vídeo e resolver o seu problema de escassez de dados. Ao contrário dos métodos convencionais que dependem de conjuntos de dados anotados ou de regras manuais, o StM divide um grande corpus de vídeos não rotulados em camadas dinâmicas de primeiro plano e fundo, e depois auto-compõe-nos para aprender como os sujeitos dinâmicos interagem com diversas cenas. Este processo permite que o modelo aprenda as dinâmicas compositivas complexas necessárias para a geração realista de vídeo. O StM introduz um *pipeline* de treino inovador, consciente da transformação, que utiliza uma fusão e aumento multicamada para alcançar uma composição consciente da *affordance*, juntamente com uma função de perda de preservação de identidade que mantém a fidelidade do primeiro plano durante a mistura. As experiências mostram que o StM supera os métodos de estado da arte tanto em benchmarks quantitativos como em avaliações qualitativas baseadas em humanos e em modelos de linguagem visual (VLLM). Mais detalhes estão disponíveis na nossa página do projeto: https://split-then-merge.github.io.
Embora os Modelos de Linguagem Multimodais (MLLMs) sejam habilidosos em responder ao que está em uma imagem – identificando objetos e descrevendo cenas –, eles frequentemente carecem da capacidade de entender como uma imagem é percebida por um observador humano. Essa lacuna é mais evidente ao considerar propriedades cognitivas subjetivas, como o que torna uma imagem memorável, engraçada, esteticamente agradável ou emocionalmente evocativa. Para abordar esse desafio sistematicamente, introduzimos o CogIP-Bench, um benchmark abrangente para avaliar MLLMs nessas propriedades cognitivas de imagem. Nossa avaliação revela uma lacuna significativa: os modelos atuais estão pouco alinhados com a percepção humana dessas propriedades sutis. Em seguida, demonstramos que uma fase de pós-treinamento pode efetivamente preencher essa lacuna, melhorando significativamente o alinhamento do modelo com os julgamentos humanos. Além disso, mostramos que esse alinhamento cognitivo aprendido não é meramente preditivo, mas também transferível para tarefas criativas subsequentes. Ao integrar nosso MLLM cognitivamente alinhado em um pipeline de geração de imagens, podemos orientar o processo de síntese para produzir imagens que melhor incorporem características desejadas, como ser mais memorável ou visualmente atraente. Nosso trabalho fornece um benchmark para medir essa percepção humanizada, um pipeline de pós-treinamento para aprimorá-la e uma demonstração de que esse alinhamento possibilita uma IA mais centrada no ser humano.
Este artigo apresenta uma nova estrutura de Mistura de Especialistas para detecção de objetos, incorporando roteamento adaptativo entre múltiplos especialistas YOLOv9-T para permitir especialização dinâmica de características e alcançar maior Precisão Média (mAP) e Revocação Média (AR) em comparação com um modelo único YOLOv9-T.
Os modelos de difusão alcançaram qualidade generativa impressionante em modalidades como imagens 2D, vídeos e formas 3D, mas sua inferência permanece computacionalmente cara devido ao processo iterativo de remoção de ruído. Embora métodos recentes baseados em cache reutilizem efetivamente cálculos redundantes para acelerar a geração de conteúdo 2D e vídeo, a aplicação direta dessas técnicas a modelos de difusão 3D pode perturbar gravemente a consistência geométrica. Na síntese 3D, até mesmo pequenos erros numéricos em características latentes em cache acumulam-se, causando artefatos estruturais e inconsistências topológicas. Para superar esta limitação, propomos o Fast3Dcache, uma estrutura de cache treinamento-livre e consciente da geometria que acelera a inferência de difusão 3D enquanto preserva a fidelidade geométrica. Nosso método introduz uma Restrição de Agendamento de Cache Preditivo (PCSC) para determinar dinamicamente as quotas de cache de acordo com os padrões de estabilização de voxel e um Critério de Estabilidade Espaço-Temporal (SSC) para selecionar características estáveis para reutilização com base na magnitude da velocidade e critério de aceleração. Experimentos abrangentes mostram que o Fast3Dcache acelera significativamente a inferência, alcanando uma aceleração de até 27,12% e uma redução de 54,8% em FLOPS, com degradação mínima na qualidade geométrica, medida pela Distância de Chamfer (2,48%) e F-Score (1,95%).
A aprendizagem federada (FL) permite o treinamento colaborativo entre clientes sem comprometer a privacidade. Embora a maioria dos métodos existentes de FL assuma arquiteturas de modelo homogéneas, a heterogeneidade dos clientes em termos de dados e recursos torna esta premissa impraticável, motivando a FL com modelos heterogéneos. Para resolver este problema, propomos o Entrelaçamento de Representação Federada (FedRE), uma estrutura baseada numa nova forma de conhecimento do cliente denominada representação entrelaçada. No FedRE, cada cliente agrega as suas representações locais numa única representação entrelaçada utilizando pesos aleatórios normalizados e aplica os mesmos pesos para integrar as codificações one-hot das etiquetas correspondentes na codificação entrelaçada de etiquetas. Estes são depois carregados para o servidor para treinar um classificador global. Durante o treino, cada representação entrelaçada é supervisionada através de categorias via sua codificação entrelaçada de etiquetas, enquanto os pesos aleatórios são reamostrados a cada ronda para introduzir diversidade, mitigando a excessiva confiança do classificador global e promovendo fronteiras de decisão mais suaves. Adicionalmente, cada cliente carrega uma única representação entrelaçada transversal a categorias, juntamente com a sua codificação entrelaçada de etiquetas, mitigando o risco de ataques de inversão de representação e reduzindo a sobrecarga de comunicação. Experiências extensivas demonstram que o FedRE alcança um equilíbrio eficaz entre desempenho do modelo, proteção de privacidade e sobrecarga de comunicação. Os códigos estão disponíveis em https://github.com/AIResearch-Group/FedRE.
Propomos uma estratégia de seleção de *frames* baseada em agrupamento para mitigar o vazamento de informação em conjuntos de dados derivados de vídeos. Ao agrupar *frames* visualmente similares antes da divisão em conjuntos de treinamento, validação e teste, o método produz partições de dados mais representativas, balanceadas e confiáveis.
Os grandes modelos de linguagem oferecem sólidas capacidades de raciocínio e uso de ferramentas, mas suas exigências computacionais os tornam inviáveis para implantações em dispositivos de borda ou sensíveis a custos. Apresentamos o Xmodel-2.5, um pequeno modelo de linguagem com 1,3 bilhão de parâmetros, concebido como um núcleo de agente de substituição direta. O treinamento com parametrização de atualização máxima (μP) permite que hiperparâmetros ajustados em um modelo proxy de 20 milhões de parâmetros sejam transferidos diretamente para o modelo completo, mesmo sob a arquitetura de incorporação de palavras vinculada com parâmetros compartilhados. É utilizado um currículo de Aquecimento--Estabilização--Decaimento com 1,4 trilhão de tokens, e demonstramos ainda que a mudança de AdamW para Muon durante a fase de decaimento melhora a média de raciocínio em 13 tarefas em 4,58%, mantendo todos os outros hiperparâmetros fixos, verificando que a estabilidade inicial do AdamW pode ser combinada com o afiamento tardio do Muon para um melhor desempenho downstream. O treinamento de precisão mista FP8 equilibra precisão e taxa de transferência. Todos os *checkpoints*, receitas e código de avaliação são disponibilizados sob a licença Apache-2.0.https://huggingface.co/XiaoduoAILab/Xmodel-2.5 e https://huggingface.co/XiaoduoAILab/Xmodel-2.5-history (*checkpoints* de treinamento). Código de treinamento e *harness* de avaliação: https://github.com/XiaoduoAILab/Xmodel-2.5.
A ressonância magnética (RM) de alta resolução (AR) é crucial para muitas aplicações clínicas e de pesquisa. No entanto, alcançá-la permanece dispendioso e limitado por compromissos técnicos e limitações experimentais. A super-resolução (SR) apresenta uma abordagem computacional promissora para superar esses desafios, gerando imagens AR a partir de exames de baixa resolução (BR) mais acessíveis, podendo melhorar a precisão e a eficiência diagnóstica sem a necessidade de hardware adicional. Esta pesquisa revisa os avanços recentes em técnicas de SR para RM, com foco em abordagens de aprendizado profundo (AP). Examina-se métodos de SR para RM baseados em AP sob as perspectivas de visão computacional, imageamento computacional, problemas inversos e física de RM, abrangendo fundamentos teóricos, desenhos arquiteturais, estratégias de aprendizado, conjuntos de dados de referência e métricas de desempenho. Propomos uma taxonomia sistemática para categorizar esses métodos e apresentamos um estudo aprofundado de técnicas de SR consolidadas e emergentes aplicáveis à RM, considerando os desafios únicos em contextos clínicos e de pesquisa. Também destacamos desafios em aberto e direções que a comunidade precisa enfrentar. Adicionalmente, fornecemos uma coleção de recursos essenciais de acesso aberto, ferramentas e tutoriais, disponíveis em nosso GitHub: https://github.com/mkhateri/Awesome-MRI-Super-Resolution. Palavras-chave IEEE: RM, Super-Resolução, Aprendizado Profundo, Imageamento Computacional, Problema Inverso, Revisão.
Abordamos o desafio de detectar anomalias raras e diversificadas em vídeos de vigilância utilizando apenas supervisão a nível de vídeo. Nossa estrutura de dupla espinha dorsal combina representações convolucionais e de *transformers* através de *pooling* top-k, alcançando 90,7% de área sob a curva (AUC) no conjunto de dados UCF-Crime.