Artigos de pesquisa em IA selecionados diariamente com traduções
O aprendizado auto-supervisionado promete eliminar a necessidade de anotação manual de dados, permitindo que os modelos escalem facilmente para conjuntos de dados massivos e arquiteturas maiores. Por não ser adaptado a tarefas ou domínios específicos, esse paradigma de treinamento tem o potencial de aprender representações visuais a partir de fontes diversas, variando de imagens naturais a aéreas -- usando um único algoritmo. Este relatório técnico apresenta o DINOv3, um marco importante para a realização dessa visão, ao empregar estratégias simples, porém eficazes. Primeiro, aproveitamos os benefícios de escalar tanto o tamanho do conjunto de dados quanto do modelo por meio de preparação, design e otimização cuidadosos dos dados. Segundo, introduzimos um novo método chamado ancoragem Gram, que aborda efetivamente o problema conhecido, mas não resolvido, de mapas de características densas se degradarem durante longos cronogramas de treinamento. Por fim, aplicamos estratégias pós-treinamento que aumentam ainda mais a flexibilidade de nossos modelos em relação à resolução, tamanho do modelo e alinhamento com texto. Como resultado, apresentamos um modelo de base visual versátil que supera o estado da arte especializado em uma ampla gama de configurações, sem ajuste fino. O DINOv3 produz características densas de alta qualidade que alcançam desempenho excepcional em várias tarefas visuais, superando significativamente os modelos de base auto-supervisionados e fracamente supervisionados anteriores. Também compartilhamos a suíte de modelos visuais DINOv3, projetada para avançar o estado da arte em um amplo espectro de tarefas e dados, fornecendo soluções escaláveis para diversas restrições de recursos e cenários de implantação.
Investigamos o potencial dos modelos de linguagem de grande escala (LLMs) para atuarem como simuladores eficientes em tarefas de busca agentiva em aprendizado por reforço (RL), reduzindo assim a dependência de interações custosas com mecanismos de busca externos. Para isso, primeiro quantificamos a capacidade intrínseca de busca dos LLMs por meio de prompts estruturados e amostragem repetida, que denominamos Self-Search. Nossos resultados revelam que os LLMs exibem um forte comportamento de escalonamento em relação ao orçamento de inferência, alcançando altos índices de pass@k em benchmarks de perguntas e respostas, incluindo a tarefa desafiadora BrowseComp. Com base nessas observações, introduzimos o Self-Search RL (SSRL), que aprimora a capacidade de Self-Search dos LLMs por meio de recompensas baseadas em formato e regras. O SSRL permite que os modelos refinem iterativamente a utilização de seu conhecimento internamente, sem a necessidade de acesso a ferramentas externas. Avaliações empíricas demonstram que os modelos de política treinados com SSRL fornecem um ambiente estável e econômico para o treinamento de RL orientado por busca, reduzindo a dependência de mecanismos de busca externos e facilitando uma transferência robusta de simulação para o mundo real. Tiramos as seguintes conclusões: 1) Os LLMs possuem conhecimento do mundo que pode ser efetivamente eliciado para alcançar alto desempenho; 2) O SSRL demonstra o potencial de aproveitar o conhecimento interno para reduzir alucinações; 3) Os modelos treinados com SSRL integram-se perfeitamente com mecanismos de busca externos sem esforço adicional. Nossas descobertas destacam o potencial dos LLMs para apoiar um treinamento mais escalável de agentes de RL.
Após a introdução do conceito de "pensar com imagens" pela OpenAI, esforços recentes têm explorado o estímulo ao uso de informações visuais no processo de raciocínio para melhorar o desempenho dos modelos em tarefas de percepção e raciocínio. No entanto, até onde sabemos, nenhum trabalho de código aberto atualmente oferece um conjunto de recursos tão rico quanto os modelos proprietários (O3), que podem realizar diversas manipulações de imagens e, simultaneamente, aprimorar as capacidades de raciocínio lógico por meio de código. Neste artigo, fazemos uma tentativa preliminar nessa direção ao introduzir Thyme (Think Beyond Images), um novo paradigma que permite que MLLMs (Modelos Multimodais de Linguagem) transcendam as abordagens existentes de "pensar com imagens" ao gerar e executar autonomamente diversas operações de processamento de imagens e computacionais por meio de código executável. Essa abordagem não apenas facilita um conjunto rico e dinâmico de manipulações de imagens (por exemplo, recorte, rotação, aumento de contraste), mas também permite cálculos matemáticos, tudo isso mantendo alta autonomia na decisão de quando e como aplicar essas operações. Ativamos essa capacidade por meio de uma estratégia de treinamento em duas etapas: um SFT (Supervised Fine-Tuning) inicial em um conjunto de dados curado de 500 mil amostras para ensinar a geração de código, seguido por uma fase de RL (Reinforcement Learning) para refinar a tomada de decisões. Para a etapa de RL, coletamos e projetamos manualmente pares de perguntas e respostas de alta resolução para aumentar a dificuldade de aprendizado, e propomos o GRPO-ATS (Group Relative Policy Optimization with Adaptive Temperature Sampling), um algoritmo que aplica temperaturas distintas à geração de texto e código para equilibrar a exploração de raciocínio com a precisão na execução de código. Realizamos uma extensa análise experimental e estudos de ablação. Avaliações abrangentes em quase 20 benchmarks mostram que o Thyme produz ganhos de desempenho significativos e consistentes, especialmente em tarefas desafiadoras de percepção de alta resolução e raciocínio complexo.
Avanços recentes no pré-treinamento de modelos de linguagem de grande escala (LLMs) mostraram que simplesmente aumentar a quantidade de dados eventualmente leva a retornos decrescentes, atingindo uma barreira de dados. Em resposta, o uso de dados sintéticos para pré-treinamento surgiu como um paradigma promissor para expandir os limites de desempenho. Apesar disso, os fatores que afetam a qualidade dos dados sintéticos ainda são pouco compreendidos. Neste trabalho, apresentamos o BeyondWeb, um framework de geração de dados sintéticos que produz dados sintéticos de alta qualidade para pré-treinamento. O BeyondWeb amplia significativamente as capacidades dos conjuntos de dados tradicionais em escala web, superando conjuntos de dados sintéticos de pré-treinamento state-of-the-art, como o Cosmopedia e o subconjunto de alta qualidade do Nemotron-CC (Nemotron-Synth), em até 5,1 pontos percentuais (pp) e 2,6 pp, respectivamente, quando avaliados em uma série de 14 benchmarks. Ele oferece um treinamento até 7,7 vezes mais rápido do que dados da web aberta e 2,7 vezes mais rápido do que o Nemotron-Synth. Notavelmente, um modelo de 3B treinado com 180B tokens no BeyondWeb supera um modelo de 8B treinado com o mesmo orçamento de tokens no Cosmopedia. Também apresentamos várias percepções do BeyondWeb sobre dados sintéticos para pré-treinamento: o que impulsiona seus benefícios, quais dados reformular e como, e o impacto do tamanho e da família do modelo na qualidade dos dados. No geral, nosso trabalho mostra que não há uma solução única para gerar dados sintéticos de pré-treinamento de alta qualidade. Os melhores resultados exigem a otimização conjunta de muitos fatores, uma tarefa desafiadora que requer ciência rigorosa e expertise prática. Abordagens ingênuas podem gerar melhorias modestas, potencialmente a um custo elevado, enquanto métodos bem executados podem resultar em melhorias transformadoras, como exemplificado pelo BeyondWeb.
Embora a inferência de LLMs tenha surgido como uma carga de trabalho crítica para muitas aplicações downstream, inferir LLMs de forma eficiente é desafiador devido à pegada de memória substencial e aos requisitos de largura de banda. Paralelamente, as capacidades de computação têm superado consistentemente tanto a capacidade de memória quanto a largura de banda nas últimas décadas, uma tendência que permanece evidente no hardware moderno de GPUs e exacerba o desafio da inferência de LLMs. Como resultado, novos algoritmos estão surgindo que trocam o aumento da computação pela redução das operações de memória. Para esse fim, apresentamos o XQuant, que aproveita essa tendência, permitindo uma redução de uma ordem de magnitude no consumo de memória por meio de quantização de baixo bit, com benefícios substanciais de precisão em relação aos métodos de quantização de cache KV state-of-the-art. Isso é alcançado quantizando e armazenando em cache as ativações de entrada da camada X, em vez de usar o cache KV padrão, e então rematerializando as Chaves e Valores dinamicamente durante a inferência. Isso resulta em uma economia imediata de 2 vezes na memória em comparação com o cache KV. Ao aplicar o XQuant, alcançamos uma economia de memória de até ~7,7 vezes com uma degradação de perplexidade <0,1 em comparação com a linha de base FP16. Além disso, nossa abordagem aproveita o fato de que os valores de X são semelhantes entre as camadas. Com base nessa observação, introduzimos o XQuant-CL, que explora a similaridade entre camadas nas incorporações X para compressão extrema. Em diferentes modelos, o XQuant-CL atinge uma economia de memória de até 10 vezes em relação à linha de base FP16 com apenas 0,01 de degradação de perplexidade, e 12,5 vezes de economia de memória com apenas 0,1 de degradação de perplexidade. O XQuant aproveita o rápido aumento das capacidades de computação das plataformas de hardware para eliminar o gargalo de memória, superando os métodos de quantização de cache KV state-of-the-art e alcançando precisão próxima à FP16 em uma ampla gama de modelos.
A busca de artigos é uma atividade importante para pesquisadores, geralmente envolvendo o uso de uma consulta com a descrição de um tópico para encontrar artigos relevantes. À medida que a pesquisa se aprofunda, os requisitos de busca de artigos podem se tornar mais flexíveis, às vezes envolvendo detalhes específicos, como a configuração de módulos, em vez de se limitar a tópicos de alto nível. No entanto, os sistemas anteriores de busca de artigos não conseguem atender a esses requisitos de granularidade flexível, pois esses sistemas coletam principalmente resumos de artigos para construir índices do corpus, que carecem de informações detalhadas para suportar a recuperação por consultas de granularidade mais fina. Neste trabalho, propomos o PaperRegister, composto por indexação hierárquica offline e recuperação adaptativa online, transformando o índice tradicional baseado em resumos em uma árvore de índice hierárquico para busca de artigos, suportando assim consultas em granularidade flexível. Experimentos em tarefas de busca de artigos em uma variedade de granularidades demonstram que o PaperRegister alcança o estado da arte em desempenho, e se destaca especialmente em cenários de granularidade fina, destacando o bom potencial como uma solução eficaz para busca de artigos de granularidade flexível em aplicações do mundo real. O código deste trabalho está disponível em https://github.com/Li-Z-Q/PaperRegister.
Apresentamos o TexVerse, um conjunto de dados 3D em grande escala que apresenta texturas de alta resolução. Embora avanços recentes em conjuntos de dados 3D em grande escala tenham aprimorado a geração de geometria de alta resolução, a criação de texturas de alta resolução de ponta a ponta permanece pouco explorada devido à falta de conjuntos de dados adequados. O TexVerse preenche essa lacuna com uma coleção curada de mais de 858 mil modelos 3D únicos de alta resolução provenientes do Sketchfab, incluindo mais de 158 mil modelos com materiais de renderização baseada em física (PBR). Cada modelo abrange todas as suas variantes de alta resolução, totalizando 1,6 milhão de instâncias 3D. O TexVerse também inclui subconjuntos especializados: TexVerse-Skeleton, com 69 mil modelos esqueletizados, e TexVerse-Animation, com 54 mil modelos animados, ambos preservando os dados originais de esqueleto e animação enviados pelo usuário. Também fornecemos anotações detalhadas dos modelos, descrevendo características gerais, componentes estruturais e detalhes intrincados. O TexVerse oferece um recurso de dados de alta qualidade com amplo potencial de aplicação em síntese de texturas, desenvolvimento de materiais PBR, animação e diversas tarefas de visão e gráficos 3D.
Avanços recentes na animação de retratos impulsionada por áudio têm demonstrado capacidades impressionantes. No entanto, os métodos existentes lutam para se alinhar com preferências humanas detalhadas em múltiplas dimensões, como naturalidade do movimento, precisão de sincronização labial e qualidade visual. Isso se deve à dificuldade de otimizar entre objetivos de preferência concorrentes, que frequentemente entram em conflito uns com os outros, e à escassez de conjuntos de dados em larga escala e de alta qualidade com anotações de preferência multidimensionais. Para abordar esses desafios, primeiro introduzimos o Talking-Critic, um modelo de recompensa multimodal que aprende funções de recompensa alinhadas com humanos para quantificar o quão bem os vídeos gerados atendem às expectativas multidimensionais. Aproveitando esse modelo, criamos o Talking-NSQ, um conjunto de dados de preferência humana multidimensional em larga escala contendo 410K pares de preferência. Finalmente, propomos o Timestep-Layer adaptive multi-expert Preference Optimization (TLPO), uma estrutura inovadora para alinhar modelos de animação de retratos baseados em difusão com preferências detalhadas e multidimensionais. O TLPO desacopla as preferências em módulos especializados de especialistas, que são então fundidos ao longo de intervalos de tempo e camadas da rede, permitindo aprimoramento abrangente e detalhado em todas as dimensões sem interferência mútua. Experimentos demonstram que o Talking-Critic supera significativamente os métodos existentes no alinhamento com as avaliações de preferência humana. Enquanto isso, o TLPO alcança melhorias substanciais em relação aos modelos de referência em precisão de sincronização labial, naturalidade do movimento e qualidade visual, exibindo desempenho superior em avaliações qualitativas e quantitativas. Nossa página do projeto: https://fantasy-amap.github.io/fantasy-talking2/
Apresentamos o StyleMM, uma nova estrutura capaz de construir um Modelo Morfológico 3D (3DMM) estilizado com base em descrições textuais definidas pelo usuário que especificam um estilo alvo. Com base em uma rede de deformação de malha pré-treinada e um gerador de texturas para faces humanas realistas baseadas em 3DMM originais, nossa abordagem ajusta esses modelos utilizando imagens faciais estilizadas geradas por meio de tradução de imagem para imagem (i2i) guiada por texto com um modelo de difusão, que servem como alvos de estilização para a malha renderizada. Para evitar alterações indesejadas na identidade, alinhamento facial ou expressões durante a tradução i2i, introduzimos um método de estilização que preserva explicitamente os atributos faciais da imagem de origem. Ao manter esses atributos críticos durante a estilização da imagem, a abordagem proposta garante uma transferência de estilo 3D consistente em todo o espaço de parâmetros do 3DMM por meio de treinamento baseado em imagem. Uma vez treinado, o StyleMM permite a geração direta de malhas faciais estilizadas com controle explícito sobre os parâmetros de forma, expressão e textura, produzindo malhas com conectividade de vértices e animabilidade consistentes. Avaliações quantitativas e qualitativas demonstram que nossa abordagem supera os métodos mais avançados em termos de diversidade facial no nível de identidade e capacidade de estilização. O código e os vídeos estão disponíveis em [kwanyun.github.io/stylemm_page](kwanyun.github.io/stylemm_page).
Redes neurais em grafos (GNNs) alcançaram resultados de ponta em tarefas de visão computacional e classificação de imagens médicas ao capturar dependências estruturais entre instâncias de dados. No entanto, seu processo de tomada de decisão permanece amplamente opaco, limitando sua confiabilidade em aplicações clínicas de alto risco, onde a interpretabilidade é essencial. As técnicas de explicabilidade existentes para GNNs são tipicamente pós-hoc e globais, oferecendo insights limitados sobre decisões individuais de nós ou raciocínio local. Apresentamos o X-Node, uma estrutura de GNN autoexplicativa na qual cada nó gera sua própria explicação como parte do processo de predição. Para cada nó, construímos um vetor de contexto estruturado que codifica pistas interpretáveis, como grau, centralidade, agrupamento, saliência de características e concordância de rótulos dentro de sua topologia local. Um módulo leve chamado Reasoner mapeia esse contexto em um vetor de explicação compacto, que serve a três propósitos: (1) reconstruir a incorporação latente do nó por meio de um decodificador para garantir fidelidade, (2) gerar uma explicação em linguagem natural usando um LLM pré-treinado (por exemplo, Grok ou Gemini), e (3) guiar a própria GNN por meio de um mecanismo de "injeção de texto" que alimenta as explicações de volta no pipeline de passagem de mensagens. Avaliamos o X-Node em dois conjuntos de dados de grafos derivados do MedMNIST e MorphoMNIST, integrando-o com arquiteturas de GCN, GAT e GIN. Nossos resultados mostram que o X-Node mantém uma precisão competitiva na classificação enquanto produz explicações fiéis por nó. Repositório: https://github.com/basiralab/X-Node.
À medida que os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) ganham ampla aplicabilidade, torna-se cada vez mais desejável adaptá-los para diversas necessidades dos usuários. Neste artigo, estudamos a adaptação de MLLMs por meio de decodificação controlada. Para isso, introduzimos o primeiro método para decodificação guiada por recompensa de MLLMs e demonstramos sua aplicação na melhoria de sua fundamentação visual. Nosso método envolve a construção de modelos de recompensa para fundamentação visual e seu uso para guiar o processo de decodificação do MLLM. Concretamente, construímos dois modelos de recompensa separados para controlar independentemente o grau de precisão e recall de objetos na saída do modelo. Nossa abordagem permite a controlabilidade em tempo real do processo de inferência de um MLLM de duas maneiras: primeiro, ao dar controle sobre a importância relativa de cada função de recompensa durante a decodificação, permitindo que o usuário troque dinamicamente precisão por recall de objetos em tarefas de legendagem de imagens; segundo, ao dar controle sobre a amplitude da busca durante a decodificação, permitindo que o usuário controle a relação entre a quantidade de computação em tempo de teste e o grau de fundamentação visual. Avaliamos nosso método em benchmarks padrão de alucinação de objetos, mostrando que ele oferece uma controlabilidade significativa sobre a inferência de MLLMs, ao mesmo tempo em que supera consistentemente os métodos existentes de mitigação de alucinações.
O aprendizado auto-supervisionado apresenta grande potencial para o sensoriamento remoto, mas os métodos padrão de auto-supervisão precisam ser adaptados às características únicas dos dados de observação da Terra. Damos um passo nessa direção ao realizar uma avaliação abrangente de estratégias de fusão e esquemas de normalização de alvos de reconstrução para dados de observação da Terra multimodais, multitemporais e multiespectrais. Com base em nossas descobertas, propomos o MAESTRO, uma nova adaptação do Autoencoder Mascarado, que apresenta estratégias de fusão otimizadas e um esquema de normalização de alvos personalizado, introduzindo um prior espectral como sinal de auto-supervisão. Avaliado em quatro conjuntos de dados de observação da Terra, o MAESTRO estabelece um novo estado da arte em tarefas que dependem fortemente de dinâmicas multitemporais, mantendo-se altamente competitivo em tarefas dominadas por uma única modalidade monotemporal. O código para reproduzir todos os nossos experimentos está disponível em https://github.com/ignf/maestro.
O aprendizado profundo revolucionou a imagem médica, mas sua eficácia é severamente limitada pela insuficiência de dados de treinamento rotulados. Este artigo introduz uma nova estrutura de aprendizado semi-supervisionado baseada em GAN, projetada especificamente para regimes com poucos dados rotulados, avaliada em configurações com 5 a 50 amostras rotuladas por classe. Nossa abordagem integra três redes neurais especializadas — um gerador para tradução de imagens condicionada por classe, um discriminador para avaliação de autenticidade e classificação, e um classificador dedicado — dentro de uma estrutura de treinamento em três fases. O método alterna entre treinamento supervisionado com dados rotulados limitados e aprendizado não supervisionado que aproveita imagens não rotuladas abundantes por meio de tradução de imagem para imagem, em vez de geração a partir de ruído. Empregamos pseudo-rotulação baseada em ensemble que combina previsões ponderadas por confiança do discriminador e do classificador com consistência temporal por meio de média móvel exponencial, permitindo uma estimativa confiável de rótulos para dados não rotulados. A avaliação abrangente em onze conjuntos de dados MedMNIST demonstra que nossa abordagem alcança melhorias estatisticamente significativas em relação a seis métodos semi-supervisionados baseados em GAN de última geração, com desempenho particularmente forte na configuração extrema de 5 exemplos, onde a escassez de dados rotulados é mais desafiadora. A estrutura mantém sua superioridade em todas as configurações avaliadas (5, 10, 20 e 50 exemplos por classe). Nossa abordagem oferece uma solução prática para aplicações de imagem médica onde os custos de anotação são proibitivos, permitindo um desempenho de classificação robusto mesmo com dados rotulados mínimos. O código está disponível em https://github.com/GuidoManni/SPARSE.