Artigos de pesquisa em IA selecionados diariamente com traduções
Este artigo apresenta o Group Sequence Policy Optimization (GSPO), nosso algoritmo de aprendizado por reforço estável, eficiente e de alto desempenho para o treinamento de grandes modelos de linguagem. Diferentemente de algoritmos anteriores que adotam razões de importância em nível de token, o GSPO define a razão de importância com base na probabilidade da sequência e realiza recorte, recompensa e otimização em nível de sequência. Demonstramos que o GSPO alcança eficiência e desempenho superiores em comparação com o algoritmo GRPO, estabiliza notavelmente o treinamento de RL com Mixture-of-Experts (MoE) e tem o potencial de simplificar o design da infraestrutura de RL. Esses méritos do GSPO contribuíram para as notáveis melhorias nos mais recentes modelos Qwen3.
Os recentes avanços em arquiteturas baseadas em transformers têm demonstrado sucesso notável em tarefas de geração de vídeo. No entanto, a complexidade quadrática dos mecanismos de atenção completa continua sendo um gargalo crítico, especialmente para sequências de vídeo de alta resolução e longa duração. Neste artigo, propomos o NABLA, um novo mecanismo de Atenção Adaptativa em Blocos de Vizinhança que se adapta dinamicamente aos padrões de esparsidade em transformers de difusão de vídeo (DiTs). Ao aproveitar a atenção em blocos com um limiar adaptativo baseado em esparsidade, o NABLA reduz a sobrecarga computacional enquanto preserva a qualidade gerativa. Nosso método não requer o design de operadores de baixo nível personalizados e pode ser integrado de forma transparente com o operador Flex Attention do PyTorch. Experimentos demonstram que o NABLA alcança até 2,7x mais rapidez no treinamento e inferência em comparação com a linha de base, quase sem comprometer as métricas quantitativas (pontuação CLIP, pontuação VBench, pontuação de avaliação humana) e a queda na qualidade visual. O código e os pesos do modelo estão disponíveis aqui: https://github.com/gen-ai-team/Wan2.1-NABLA.
Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram desempenho impressionante em tarefas que exigem raciocínio intensivo, mas otimizar sua eficiência de raciocínio continua sendo um desafio em aberto. Embora o Escalonamento em Tempo de Teste (TTS) melhore a qualidade do raciocínio, ele frequentemente leva ao "overthinking", desperdiçando tokens em computações redundantes. Este trabalho investiga como orientar de forma eficiente e adaptativa o escalonamento em tempo de teste dos LLMs sem treinamento adicional. Inspirados pelo conceito de momento na física, propomos o Raciocínio Guiado por Incerteza de Momento (MUR), que aloca dinamicamente orçamentos de pensamento para etapas críticas de raciocínio, rastreando e agregando incertezas passo a passo ao longo do tempo. Para suportar controle flexível durante a inferência, introduzimos o gamma-control, um mecanismo simples que ajusta o orçamento de raciocínio por meio de um único hiperparâmetro. Fornecemos uma prova teórica detalhada para apoiar a superioridade do MUR em termos de estabilidade e vieses. O MUR é avaliado de forma abrangente contra vários métodos de TTS em quatro benchmarks desafiadores (MATH-500, AIME24, AIME25 e GPQA-diamond) utilizando diferentes tamanhos dos modelos recentes Qwen3 (1.7B, 4B e 8B). Os resultados demonstram que o MUR reduz a computação em mais de 50% em média, enquanto melhora a precisão em 0,62-3,37%.
Apresentamos o Captain Cinema, uma estrutura de geração para a criação de curtas-metragens. Dada uma descrição textual detalhada de uma história de filme, nossa abordagem primeiro gera uma sequência de quadros-chave que delineiam toda a narrativa, garantindo coerência de longo alcance tanto na história quanto na aparência visual (por exemplo, cenas e personagens). Referimo-nos a essa etapa como planejamento de quadros-chave de cima para baixo. Esses quadros-chave então servem como sinais de condicionamento para um modelo de síntese de vídeo, que suporta aprendizado de contexto longo, para produzir a dinâmica espaço-temporal entre eles. Essa etapa é chamada de síntese de vídeo de baixo para cima. Para apoiar a geração estável e eficiente de obras cinematográficas narrativas longas com múltiplas cenas, introduzimos uma estratégia de treinamento intercalado para Transformadores de Difusão Multimodal (MM-DiT), especificamente adaptada para dados de vídeo de contexto longo. Nosso modelo é treinado em um conjunto de dados cinematográficos especialmente curado, composto por pares de dados intercalados. Nossos experimentos demonstram que o Captain Cinema se sai favoravelmente na criação automatizada de curtas-metragens visualmente coerentes e narrativamente consistentes, com alta qualidade e eficiência. Página do projeto: https://thecinema.ai
Modelos de raciocínio em larga escala têm alcançado desempenho notável por meio de sequências extensas de cadeias de pensamento, mas essa liberdade computacional resulta em geração excessiva de tokens, mesmo para problemas simples. Apresentamos o Length-Adaptive Policy Optimization (LAPO), uma estrutura inovadora que transforma o controle do comprimento do raciocínio de uma restrição externa em uma capacidade intrínseca do modelo. Diferente de abordagens existentes que impõem limites rígidos ou dependem de intervenções pós-hoc, o LAPO permite que os modelos internalizem a compreensão da profundidade adequada de raciocínio por meio de um processo de aprendizado por reforço em duas etapas. Na primeira etapa, os modelos aprendem padrões naturais de raciocínio ao descobrir a distribuição estatística dos comprimentos de soluções bem-sucedidas. A segunda etapa utiliza esses padrões como orientação metacognitiva, incorporando-os diretamente no contexto de raciocínio do modelo para garantir flexibilidade durante a inferência. Experimentos em benchmarks de raciocínio matemático demonstram que o LAPO reduz o uso de tokens em até 40,9% enquanto melhora a precisão em 2,3%. Nossa análise revela que modelos treinados com o LAPO desenvolvem habilidades emergentes para alocar recursos computacionais com base na complexidade do problema, alcançando raciocínio eficiente sem sacrificar a qualidade.
Apesar dos notáveis avanços alcançados pelos recentes trabalhos de geração 3D, a escalabilidade desses métodos para extensões geográficas, como a modelagem de milhares de quilômetros quadrados da superfície terrestre, continua sendo um desafio em aberto. Abordamos isso por meio de uma dupla inovação na infraestrutura de dados e na arquitetura do modelo. Primeiro, apresentamos o Aerial-Earth3D, o maior conjunto de dados aéreos 3D até o momento, composto por 50 mil cenas curadas (cada uma medindo 600m x 600m) capturadas em todo o território continental dos EUA, abrangendo 45 milhões de quadros multi-visão do Google Earth. Cada cena fornece imagens multi-visão anotadas com pose, mapas de profundidade, normais, segmentação semântica e poses da câmera, com controle de qualidade explícito para garantir diversidade de terreno. Com base nisso, propomos o EarthCrafter, uma estrutura personalizada para geração 3D em grande escala da Terra via difusão latente esparsa-desacoplada. Nossa arquitetura separa a geração estrutural e textural: 1) Dual sparse 3D-VAEs comprimem voxels geométricos de alta resolução e Splats Gaussianos 2D texturais (2DGS) em espaços latentes compactos, aliviando significativamente o custo computacional associado a vastas escalas geográficas, enquanto preservam informações críticas. 2) Propomos modelos de correspondência de fluxo condicionados treinados em entradas mistas (semântica, imagens ou nenhuma) para modelar de forma flexível características latentes de geometria e textura de maneira independente. Experimentos extensivos demonstram que o EarthCrafter tem um desempenho substancialmente melhor na geração em escala extremamente grande. A estrutura ainda suporta aplicações versáteis, desde a geração de layouts urbanos guiados por semântica até a síntese incondicional de terrenos, mantendo a plausibilidade geográfica por meio de nossos ricos priors de dados do Aerial-Earth3D. Nossa página do projeto está disponível em https://whiteinblue.github.io/earthcrafter/
A escalabilidade de modelos de geração visual é essencial para a criação de conteúdo no mundo real, mas exige custos substanciais de treinamento e computação. Alternativamente, a escalabilidade em tempo de teste tem ganhado crescente atenção devido à eficiência de recursos e desempenho promissor. Neste trabalho, apresentamos o TTS-VAR, o primeiro framework geral de escalabilidade em tempo de teste para modelos visuais auto-regressivos (VAR), modelando o processo de geração como um problema de busca de caminhos. Para equilibrar dinamicamente a eficiência computacional com a capacidade de exploração, introduzimos primeiro um cronograma adaptativo de redução do tamanho do lote ao longo do processo de geração causal. Além disso, inspirados pela geração hierárquica multi-escala de grosseiro para fino do VAR, nosso framework integra dois componentes-chave: (i) Em escalas grosseiras, observamos que os tokens gerados são difíceis de avaliar, possivelmente levando à aceitação errônea de amostras inferiores ou à rejeição de amostras superiores. Percebendo que as escalas grosseiras contêm informações estruturais suficientes, propomos uma busca de diversidade baseada em agrupamento. Ela preserva a variedade estrutural por meio de agrupamento de características semânticas, permitindo a seleção posterior de amostras com maior potencial. (ii) Em escalas finas, a seleção de potencial baseada em reamostragem prioriza candidatos promissores usando pontuações de potencial, que são definidas como funções de recompensa incorporando o histórico de geração multi-escala. Experimentos no poderoso modelo VAR Infinity mostram uma melhoria notável de 8,7% na pontuação GenEval (de 0,69 para 0,75). Insights-chave revelam que características estruturais em estágios iniciais influenciam efetivamente a qualidade final, e a eficácia da reamostragem varia entre as escalas de geração. O código está disponível em https://github.com/ali-vilab/TTS-VAR.
Modelos de raciocínio de grande escala alcançam desempenho notável através da geração extensa de cadeias de pensamento, mas exibem ineficiência computacional significativa ao aplicar estratégias de raciocínio uniformes, independentemente da complexidade do problema. Apresentamos a Otimização de Política Hierárquica de Orçamento (HBPO), uma estrutura de aprendizado por reforço que permite aos modelos aprender profundidades de raciocínio específicas para cada problema sem sacrificar a capacidade. A HBPO aborda o desafio fundamental do colapso do espaço de exploração em treinamentos orientados para eficiência, onde penalidades em saídas longas tendem a afastar os modelos de caminhos de raciocínio longos necessários. Através da exploração hierárquica de orçamento, nossa abordagem divide amostras de execução em múltiplos subgrupos com orçamentos de tokens distintos, visando permitir alocação eficiente de recursos enquanto previne a degradação da capacidade. Introduzimos mecanismos de recompensa diferenciados que criam incentivos conscientes do orçamento alinhados com a complexidade do problema, permitindo que os modelos descubram correspondências naturais entre requisitos da tarefa e esforço computacional. Experimentos extensivos demonstram que a HBPO reduz o uso médio de tokens em até 60,6% enquanto melhora a precisão em 3,14% em quatro benchmarks de raciocínio. Diferente de métodos existentes que impõem restrições externas ou dependem de seleção discreta de modos, a HBPO exibe comportamento adaptativo emergente, onde os modelos ajustam automaticamente a profundidade de raciocínio com base na complexidade do problema. Nossos resultados sugerem que eficiência de raciocínio e capacidade não são inerentemente conflitantes, e podem ser otimizadas simultaneamente através de treinamento hierárquico adequadamente estruturado que preserva a diversidade de exploração.
A extração de informação (IE) é fundamental para inúmeras aplicações de PLN, porém as soluções existentes frequentemente exigem modelos especializados para diferentes tarefas ou dependem de modelos de linguagem grandes e computacionalmente caros. Apresentamos o GLiNER2, uma estrutura unificada que aprimora a arquitetura original do GLiNER para suportar reconhecimento de entidades nomeadas, classificação de texto e extração de dados estruturados hierárquicos em um único modelo eficiente. Construído sobre uma arquitetura de codificador de transformadores pré-treinados, o GLiNER2 mantém eficiência em CPU e tamanho compacto, ao mesmo tempo que introduz composição multitarefa por meio de uma interface intuitiva baseada em esquemas. Nossos experimentos demonstram desempenho competitivo em tarefas de extração e classificação, com melhorias substanciais na acessibilidade de implantação em comparação com alternativas baseadas em LLM. Lançamos o GLiNER2 como uma biblioteca de código aberto instalável via pip, com modelos pré-treinados e documentação disponíveis em https://github.com/fastino-ai/GLiNER2.
Aprender a partir de fluxos de dados não estacionários sujeitos a mudanças de conceito requer modelos que possam se adaptar em tempo real, mantendo-se eficientes em termos de recursos. Os métodos adaptativos de ensemble existentes frequentemente dependem de mecanismos de adaptação de granularidade grossa ou esquemas de votação simples que não aproveitam de forma ideal o conhecimento especializado. Este artigo apresenta o DriftMoE, uma arquitetura online de Mistura de Especialistas (MoE) que aborda essas limitações por meio de um novo framework de co-treinamento. O DriftMoE possui um roteador neural compacto que é co-treinado juntamente com um conjunto de especialistas em árvores de Hoeffding incrementais. A inovação principal reside em um loop de aprendizado simbiótico que permite a especialização dos especialistas: o roteador seleciona o especialista mais adequado para a previsão, os especialistas relevantes atualizam-se incrementalmente com o rótulo verdadeiro, e o roteador refina seus parâmetros usando uma máscara de correção multi-hot que reforça cada especialista preciso. Esse loop de feedback fornece ao roteador um sinal de treinamento claro, ao mesmo tempo que acelera a especialização dos especialistas. Avaliamos o desempenho do DriftMoE em nove benchmarks de aprendizado de fluxo de dados de última geração, abrangendo mudanças abruptas, graduais e do mundo real, testando duas configurações distintas: uma em que os especialistas se especializam em regimes de dados (variante multiclasse), e outra em que focam na especialização de classe única (variante baseada em tarefas). Nossos resultados demonstram que o DriftMoE alcança resultados competitivos com os ensembles adaptativos de última geração para aprendizado de fluxo, oferecendo uma abordagem fundamentada e eficiente para a adaptação a mudanças de conceito. Todo o código, pipelines de dados e scripts de reprodutibilidade estão disponíveis em nosso repositório público no GitHub: https://github.com/miguel-ceadar/drift-moe.
Apresentamos a mais recente série de modelos TeleChat: TeleChat2, TeleChat2.5 e T1, que oferecem uma melhoria significativa em relação ao seu antecessor, o TeleChat. Apesar de mudanças mínimas na arquitetura do modelo, a nova série alcança ganhos substanciais de desempenho por meio de estratégias de treinamento aprimoradas, tanto na fase de pré-treinamento quanto na pós-treinamento. A série começa com o TeleChat2, que passa por um pré-treinamento com 10 trilhões de tokens de alta qualidade e diversificados. Isso é seguido por Ajuste Fino Supervisionado (SFT) e Otimização Direta de Preferência (DPO) para aprimorar ainda mais suas capacidades. O TeleChat2.5 e o T1 expandem o pipeline ao incorporar uma fase de pré-treinamento contínuo com conjuntos de dados específicos de domínio, combinados com aprendizado por reforço (RL) para melhorar o desempenho em tarefas de geração de código e raciocínio matemático. A variante T1 é projetada para raciocínio complexo, suportando longas cadeias de raciocínio (Chain-of-Thought, CoT) e demonstrando melhorias substanciais em matemática e codificação. Em contraste, o TeleChat2.5 prioriza a velocidade, oferecendo inferência rápida. Ambos os modelos principais, T1 e TeleChat2.5, são arquiteturas densas baseadas em Transformers com 115 bilhões de parâmetros, mostrando avanços significativos em raciocínio e desempenho geral de tarefas em comparação com o TeleChat original. Notavelmente, o T1-115B supera modelos proprietários como o o1-mini da OpenAI e o GPT-4o. Disponibilizamos publicamente o TeleChat2, TeleChat2.5 e T1, incluindo versões pós-treinadas com 35 bilhões e 115 bilhões de parâmetros, para capacitar desenvolvedores e pesquisadores com modelos de linguagem de ponta adaptados para diversas aplicações.
Os avanços recentes na síntese de texto para imagem beneficiam-se amplamente de estratégias de amostragem sofisticadas e da orientação sem classificador (CFG, do inglês *Classifier-Free Guidance*) para garantir uma geração de alta qualidade. No entanto, a dependência da CFG em duas passagens diretas, especialmente quando combinada com algoritmos de amostragem complexos, resulta em custos de inferência proibitivamente altos. Para resolver isso, introduzimos o TeEFusion (*Text Embeddings Fusion*), um método de destilação novo e eficiente que incorpora diretamente a magnitude de orientação nos embeddings de texto e destila a estratégia de amostragem complexa do modelo professor. Ao simplesmente fundir embeddings de texto condicionais e incondicionais usando operações lineares, o TeEFusion reconstrói a orientação desejada sem adicionar parâmetros extras, permitindo simultaneamente que o modelo aluno aprenda com a saída do professor produzida por meio de sua abordagem de amostragem sofisticada. Experimentos extensivos em modelos de última geração, como o SD3, demonstram que nosso método permite que o aluno imite de perto o desempenho do professor com uma estratégia de amostragem muito mais simples e eficiente. Consequentemente, o modelo aluno alcança velocidades de inferência até 6 vezes mais rápidas que o modelo professor, mantendo a qualidade da imagem em níveis comparáveis aos obtidos por meio da abordagem de amostragem complexa do professor. O código está publicamente disponível em https://github.com/AIDC-AI/TeEFusion{github.com/AIDC-AI/TeEFusion}.
Este relatório documenta, descreve e avalia os novos modelos GloVe (Global Vectors for Word Representation) em inglês de 2024. Embora os modelos GloVe originais construídos em 2014 tenham sido amplamente utilizados e considerados úteis, as línguas e o mundo continuam a evoluir, e consideramos que o uso atual poderia se beneficiar de modelos atualizados. Além disso, os modelos de 2014 não foram cuidadosamente documentados em relação às versões exatas dos dados e ao pré-processamento utilizados, e corrigimos isso documentando esses novos modelos. Treinamos dois conjuntos de embeddings de palavras utilizando a Wikipedia, o Gigaword e um subconjunto do Dolma. A avaliação por meio de comparação de vocabulário, testes diretos e tarefas de Reconhecimento de Entidades Nomeadas (NER) mostra que os vetores de 2024 incorporam novas palavras cultural e linguisticamente relevantes, apresentam desempenho comparável em tarefas estruturais como analogia e similaridade, e demonstram melhoria no desempenho em conjuntos de dados NER recentes e temporalmente dependentes, como dados de notícias não ocidentais.
Segmentos em visão computacional são frequentemente definidos por considerações semânticas e são altamente dependentes de convenções específicas de categorias. Em contraste, a psicologia do desenvolvimento sugere que os humanos percebem o mundo em termos de objetos de Spelke—agrupamentos de coisas físicas que se movem de forma confiável juntas quando atuadas por forças físicas. Objetos de Spelke, portanto, operam com base em relações causais de movimento que são independentes de categorias, o que potencialmente oferece melhor suporte para tarefas como manipulação e planejamento. Neste artigo, primeiro avaliamos o conceito de objeto de Spelke, introduzindo o conjunto de dados SpelkeBench, que contém uma ampla variedade de segmentos de Spelke bem definidos em imagens naturais. Em seguida, para extrair segmentos de Spelke de imagens de forma algorítmica, construímos o SpelkeNet, uma classe de modelos de mundo visual treinados para prever distribuições sobre movimentos futuros. O SpelkeNet suporta a estimativa de dois conceitos-chave para a descoberta de objetos de Spelke: (1) o mapa de affordance de movimento, identificando regiões que provavelmente se moverão sob um toque, e (2) o mapa de deslocamento esperado, capturando como o restante da cena se moverá. Esses conceitos são usados para "sondagem contrafactual estatística", onde diversos "toques virtuais" são aplicados em regiões de alta affordance de movimento, e os mapas de deslocamento esperado resultantes são usados para definir segmentos de Spelke como agregações estatísticas de correlações de movimento. Descobrimos que o SpelkeNet supera baselines supervisionados como o SegmentAnything (SAM) no SpelkeBench. Por fim, mostramos que o conceito de Spelke é praticamente útil para aplicações subsequentes, proporcionando desempenho superior no benchmark 3DEditBench para manipulação de objetos físicos quando utilizado em uma variedade de modelos de manipulação de objetos prontos para uso.
Sistemas de texto para fala (TTS) baseados em difusão têm feito progressos notáveis na síntese de fala zero-shot, mas otimizar todos os componentes para métricas perceptuais continua sendo um desafio. Trabalhos anteriores com o DMOSpeech demonstraram a otimização direta de métricas para componentes de geração de fala, mas a previsão de duração permaneceu não otimizada. Este artigo apresenta o DMOSpeech 2, que estende a otimização de métricas para o preditor de duração por meio de uma abordagem de aprendizado por reforço. O sistema proposto implementa uma nova estrutura de política de duração usando otimização de preferência relativa em grupo (GRPO) com similaridade do locutor e taxa de erro de palavras como sinais de recompensa. Ao otimizar esse componente anteriormente não otimizado, o DMOSpeech 2 cria um pipeline de síntese mais completo com otimização de métricas. Além disso, este artigo introduz a amostragem guiada por professor, uma abordagem híbrida que aproveita um modelo professor para os passos iniciais de remoção de ruído antes de transicionar para o modelo aluno, melhorando significativamente a diversidade da saída enquanto mantém a eficiência. Avaliações abrangentes demonstram desempenho superior em todas as métricas em comparação com sistemas anteriores, enquanto reduz os passos de amostragem pela metade sem degradação de qualidade. Esses avanços representam um passo significativo em direção a sistemas de síntese de fala com otimização de métricas em múltiplos componentes. As amostras de áudio, código e modelos pré-treinados estão disponíveis em https://dmospeech2.github.io/.
Os Modelos de Linguagem de Grande Escala (LLMs) demonstram um potencial considerável em aplicações financeiras; no entanto, os modelos predominantes frequentemente apresentam limitações ao enfrentar cenários que exigem capacidades de raciocínio sofisticadas, critérios rigorosos de confiabilidade e adaptação eficiente a requisitos específicos do domínio. Introduzimos a série Agentar-Fin-R1 de modelos de linguagem de grande escala financeira (8B e 32B parâmetros), especificamente projetados com base no modelo base Qwen3 para aprimorar as capacidades de raciocínio, confiabilidade e especialização em domínios financeiros. Nossa abordagem de otimização integra um sistema de rotulação de tarefas financeiras de alta qualidade e sistemático com uma estrutura abrangente de garantia de confiabilidade em múltiplas camadas. Essa estrutura engloba engenharia de conhecimento confiável de alta qualidade, síntese de dados confiáveis por múltiplos agentes e governança rigorosa de validação de dados. Por meio de otimização automatizada guiada por rótulos com consciência de dificuldade, pipeline de treinamento em duas etapas e sistemas de atribuição dinâmica, alcançamos melhorias substanciais na eficiência do treinamento. Nossos modelos passam por avaliação abrangente em benchmarks financeiros principais, incluindo Fineva, FinEval e FinanceIQ, bem como em conjuntos de dados de raciocínio geral, como MATH-500 e GPQA-diamond. Para avaliar minuciosamente as capacidades de implantação no mundo real, propomos inovadoramente o benchmark de avaliação Finova, que se concentra no raciocínio financeiro em nível de agente e na verificação de conformidade. Os resultados experimentais demonstram que o Agentar-Fin-R1 não apenas alcança desempenho de ponta em tarefas financeiras, mas também exibe capacidades excepcionais de raciocínio geral, validando sua eficácia como uma solução confiável para aplicações financeiras de alto risco. O benchmark Finova está disponível em https://github.com/antgroup/Finova.
Apresentamos o Iwin Transformer, um novo transformador hierárquico para visão sem incorporação de posição, que pode ser ajustado diretamente de baixa para alta resolução, por meio da colaboração de uma atenção inovadora por janelas intercaladas e convolução separável em profundidade. Essa abordagem utiliza atenção para conectar tokens distantes e aplica convolução para vincular tokens vizinhos, permitindo a troca global de informações dentro de um único módulo, superando a limitação do Swin Transformer de exigir dois blocos consecutivos para aproximar a atenção global. Experimentos extensos em benchmarks visuais demonstram que o Iwin Transformer exibe forte competitividade em tarefas como classificação de imagens (87,4 de precisão top-1 no ImageNet-1K), segmentação semântica e reconhecimento de ações em vídeos. Também validamos a eficácia do componente central do Iwin como um módulo independente que pode substituir perfeitamente o módulo de autoatenção na geração de imagens condicionadas por classe. Os conceitos e métodos introduzidos pelo Iwin Transformer têm o potencial de inspirar pesquisas futuras, como a Iwin 3D Attention na geração de vídeos. O código e os modelos estão disponíveis em https://github.com/cominder/Iwin-Transformer.
A Recuperação de Vídeos Parcialmente Relevantes (PRVR) aborda o desafio crítico de corresponder vídeos não editados com consultas de texto que descrevem apenas conteúdo parcial. Os métodos existentes sofrem com distorções geométricas no espaço euclidiano que, por vezes, representam erroneamente a estrutura hierárquica intrínseca dos vídeos e negligenciam certas semânticas hierárquicas, resultando em uma modelagem temporal subótima. Para resolver esse problema, propomos o primeiro framework de modelagem hiperbólica para PRVR, denominado HLFormer, que aproveita o aprendizado em espaço hiperbólico para compensar as capacidades subótimas de modelagem hierárquica do espaço euclidiano. Especificamente, o HLFormer integra o Bloco de Atenção Lorentziano e o Bloco de Atenção Euclidiano para codificar embeddings de vídeo em espaços híbridos, utilizando o Módulo de Interação Adaptativa Guiada por Média para fundir dinamicamente as características. Além disso, introduzimos uma Função de Perda de Preservação de Ordem Parcial para impor a hierarquia "texto < vídeo" por meio de restrições de cone lorentziano. Essa abordagem aprimora ainda mais a correspondência multimodal ao reforçar a relevância parcial entre o conteúdo do vídeo e as consultas de texto. Experimentos extensivos demonstram que o HLFormer supera os métodos state-of-the-art. O código está disponível em https://github.com/lijun2005/ICCV25-HLFormer.
A segmentação de imagens médicas é crucial para muitas tarefas na área da saúde, incluindo o diagnóstico de doenças e o planejamento de tratamentos. Uma área-chave é a segmentação de lesões de pele, que é vital para o diagnóstico de câncer de pele e o monitoramento de pacientes. Nesse contexto, este artigo apresenta o SegDT, um novo modelo de segmentação baseado em transformadores de difusão (DiT). O SegDT foi projetado para funcionar em hardware de baixo custo e incorpora o Fluxo Retificado, que melhora a qualidade da geração com etapas de inferência reduzidas e mantém a flexibilidade dos modelos de difusão padrão. Nosso método é avaliado em três conjuntos de dados de referência e comparado com vários trabalhos existentes, alcançando resultados de ponta enquanto mantém velocidades de inferência rápidas. Isso torna o modelo proposto atraente para aplicações médicas no mundo real. Este trabalho avança o desempenho e as capacidades dos modelos de aprendizado profundo na análise de imagens médicas, permitindo ferramentas de diagnóstico mais rápidas e precisas para profissionais da saúde. O código está disponível publicamente em https://github.com/Bekhouche/SegDT{GitHub}.
Este artigo apresenta uma nova abordagem baseada em aprendizado profundo para a classificação simultânea de idade e gênero a partir de imagens faciais, projetada para aumentar a eficácia de campanhas publicitárias segmentadas. Propomos uma arquitetura personalizada de Rede Neural Convolucional (CNN), otimizada para ambas as tarefas, que aproveita a correlação inerente entre informações de idade e gênero presentes nas características faciais. Diferentemente de métodos existentes que frequentemente tratam essas tarefas de forma independente, nosso modelo aprende representações compartilhadas, resultando em um desempenho aprimorado. A rede é treinada em um grande e diversificado conjunto de dados de imagens faciais, cuidadosamente pré-processadas para garantir robustez contra variações de iluminação, pose e qualidade da imagem. Nossos resultados experimentais demonstram uma melhoria significativa na precisão da classificação de gênero, atingindo 95%, e um erro absoluto médio competitivo de 5,77 anos para a estimativa de idade. De forma crítica, analisamos o desempenho em diferentes faixas etárias, identificando desafios específicos na estimativa precisa da idade de indivíduos mais jovens. Essa análise revela a necessidade de aumento de dados direcionado e refinamento do modelo para abordar esses vieses. Além disso, exploramos o impacto de diferentes arquiteturas de CNN e configurações de hiperparâmetros no desempenho geral, fornecendo insights valiosos para pesquisas futuras.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs), construídos sobre bases linguísticas poderosas, têm possibilitado o Aprendizado em Contexto Multimodal (MICL) - adaptando-se a novas tarefas a partir de algumas demonstrações multimodais compostas por imagens, perguntas e respostas. Apesar de mostrarem melhorias perceptíveis em conjuntos de dados padrão de visão e linguagem, os MLLMs atuais lutam para aproveitar as informações visuais nas demonstrações. Especificamente, eles tendem a negligenciar pistas visuais e a depender excessivamente de padrões textuais, levando a uma mera imitação de texto em vez de uma adaptação multimodal genuína. Esse comportamento faz com que o MICL ainda seja unimodal e restrinja amplamente sua utilidade prática. Mais importante ainda, essa limitação é frequentemente ocultada pelo desempenho aprimorado em tarefas que não exigem a compreensão do contexto visual. Como resultado, como efetivamente aprimorar a capacidade do MICL e avaliar de forma confiável o desempenho do MICL permanece pouco explorado. Para abordar essas questões, primeiro introduzimos a Realocação Dinâmica de Atenção (DARA), uma estratégia eficiente de ajuste fino que incentiva os modelos a prestarem atenção ao contexto visual, reequilibrando a atenção entre tokens visuais e textuais. Além disso, apresentamos o TrueMICL, um conjunto de dados dedicado ao MICL com conjuntos de suporte e teste que exigem explicitamente a integração de informações multimodais - particularmente conteúdo visual - para a conclusão correta da tarefa. Experimentos extensivos demonstram a eficácia de nossa solução holística, mostrando melhorias substanciais nas verdadeiras capacidades de aprendizado em contexto multimodal. Códigos e conjuntos de dados estão disponíveis em https://chenxshuo.github.io/true-micl-colm.