Artigos de pesquisa em IA selecionados diariamente com traduções
A unificação da compreensão e geração de imagens tem ganhado crescente atenção em pesquisas recentes sobre modelos multimodais. Embora as escolhas de design para a compreensão de imagens tenham sido extensivamente estudadas, a arquitetura de modelo ideal e a receita de treinamento para um framework unificado com geração de imagens permanecem pouco exploradas. Motivados pelo forte potencial dos modelos autoregressivos e de difusão para geração de alta qualidade e escalabilidade, conduzimos um estudo abrangente de seu uso em configurações multimodais unificadas, com ênfase em representações de imagens, objetivos de modelagem e estratégias de treinamento. Baseados nessas investigações, introduzimos uma nova abordagem que emprega um transformer de difusão para gerar características de imagem CLIP semanticamente ricas, em contraste com as representações convencionais baseadas em VAE. Esse design resulta em maior eficiência de treinamento e qualidade gerativa aprimorada. Além disso, demonstramos que uma estratégia de pré-treinamento sequencial para modelos unificados — primeiro treinando na compreensão de imagens e subsequentemente na geração de imagens — oferece vantagens práticas ao preservar a capacidade de compreensão de imagens enquanto desenvolve uma forte habilidade de geração de imagens. Por fim, cuidadosamente curamos um conjunto de dados de ajuste fino por instruções de alta qualidade, BLIP3o-60k, para geração de imagens, ao solicitar ao GPT-4o uma diversificada coleção de legendas que abrangem várias cenas, objetos, gestos humanos e mais. Com base em nosso design de modelo inovador, receita de treinamento e conjuntos de dados, desenvolvemos o BLIP3-o, um conjunto de modelos multimodais unificados de última geração. O BLIP3-o alcança desempenho superior na maioria dos benchmarks populares que abrangem tanto tarefas de compreensão quanto de geração de imagens. Para facilitar pesquisas futuras, disponibilizamos totalmente nossos modelos em código aberto, incluindo código, pesos do modelo, scripts de treinamento, e conjuntos de dados de pré-treinamento e ajuste fino por instruções.
A rápida escalabilidade dos grandes modelos de linguagem (LLMs) revelou limitações críticas nas arquiteturas de hardware atuais, incluindo restrições na capacidade de memória, eficiência computacional e largura de banda de interconexão. O DeepSeek-V3, treinado em 2.048 GPUs NVIDIA H800, demonstra como a co-projetação de modelos com consciência de hardware pode abordar efetivamente esses desafios, permitindo treinamento e inferência em escala de forma econômica. Este artigo apresenta uma análise detalhada da arquitetura do modelo DeepSeek-V3/R1 e de sua infraestrutura de IA, destacando inovações-chave como a Atenção Latente Multi-cabeça (MLA) para maior eficiência de memória, arquiteturas de Mistura de Especialistas (MoE) para otimizar o equilíbrio entre computação e comunicação, treinamento de precisão mista FP8 para aproveitar ao máximo as capacidades do hardware, e uma Topologia de Rede Multi-Plano para minimizar a sobrecarga de rede em nível de cluster. Com base nos gargalos de hardware encontrados durante o desenvolvimento do DeepSeek-V3, engajamos uma discussão mais ampla com colegas acadêmicos e da indústria sobre possíveis direções futuras de hardware, incluindo unidades de computação de baixa precisão precisas, convergência de escalabilidade vertical e horizontal, e inovações em tecidos de comunicação de baixa latência. Esses insights destacam o papel crítico da co-projetação de hardware e modelo para atender às demandas crescentes de cargas de trabalho de IA, oferecendo um plano prático para inovação em sistemas de IA de próxima geração.
Conjuntos de dados de legendagem de imagens em linguagem natural, amplamente utilizados para treinar Modelos Multimodais de Grande Escala (LMMs), concentram-se principalmente em cenários naturais e negligenciam os detalhes intrincados de figuras matemáticas que são críticos para a resolução de problemas, dificultando o avanço dos LMMs atuais no raciocínio matemático multimodal. Para isso, propomos utilizar código como supervisão para o alinhamento cross-modal, uma vez que o código codifica inerentemente todas as informações necessárias para gerar as figuras correspondentes, estabelecendo uma conexão precisa entre as duas modalidades. Especificamente, co-desenvolvemos nosso modelo de imagem para código e conjunto de dados com uma abordagem de modelo-em-loop, resultando em um modelo de imagem para código, o FigCodifier, e o conjunto de dados ImgCode-8.6M, o maior conjunto de dados de imagem-código até o momento. Além disso, utilizamos o FigCodifier para sintetizar novas figuras matemáticas e, em seguida, construímos o MM-MathInstruct-3M, um conjunto de dados de ajuste fino de instruções matemáticas multimodais de alta qualidade. Por fim, apresentamos o MathCoder-VL, treinado com o ImgCode-8.6M para alinhamento cross-modal e posteriormente ajustado no MM-MathInstruct-3M para a resolução de problemas matemáticos multimodais. Nosso modelo alcança um novo estado da arte (SOTA) de código aberto em todas as seis métricas. Notavelmente, ele supera o GPT-4o e o Claude 3.5 Sonnet no subconjunto de resolução de problemas de geometria do MathVista, alcançando melhorias de 8,9% e 9,2%. O conjunto de dados e os modelos serão liberados em https://github.com/mathllm/MathCoder.
Tarefas de predição visual densa têm sido limitadas por sua dependência de categorias predefinidas, restringindo sua aplicabilidade em cenários do mundo real onde os conceitos visuais são ilimitados. Embora Modelos de Visão e Linguagem (VLMs) como o CLIP tenham mostrado potencial em tarefas de vocabulário aberto, sua aplicação direta à predição densa frequentemente resulta em desempenho subótimo devido a limitações na representação de características locais. Neste trabalho, apresentamos nossa observação de que os tokens de imagem do CLIP têm dificuldade em agregar efetivamente informações de regiões espacial ou semanticamente relacionadas, resultando em características que carecem de discriminabilidade local e consistência espacial. Para resolver esse problema, propomos o DeCLIP, um novo framework que aprimora o CLIP ao desacoplar o módulo de self-attention para obter características de "conteúdo" e "contexto" respectivamente. As características de "conteúdo" são alinhadas com representações de recortes de imagem para melhorar a discriminabilidade local, enquanto as características de "contexto" aprendem a manter as correlações espaciais sob a orientação de modelos de visão fundamentais, como o DINO. Experimentos extensivos demonstram que o DeCLIP supera significativamente os métodos existentes em várias tarefas de predição densa de vocabulário aberto, incluindo detecção de objetos e segmentação semântica. O código está disponível em magenta{https://github.com/xiaomoguhz/DeCLIP}.
Apresentamos um método simples, porém eficaz, baseado em difusão para controle paramétrico e refinado de fontes de luz em uma imagem. Os métodos existentes de reiluminação dependem de múltiplas visualizações de entrada para realizar renderização inversa no momento da inferência ou falham em fornecer controle explícito sobre as mudanças de luz. Nosso método ajusta finamente um modelo de difusão em um pequeno conjunto de pares de fotografias brutas reais, complementado por imagens renderizadas sinteticamente em escala, para elicitar seu prévio fotorrealista para reiluminação. Aproveitamos a linearidade da luz para sintetizar pares de imagens que retratam mudanças controladas de luz, seja de uma fonte de luz específica ou da iluminação ambiente. Utilizando esses dados e um esquema de ajuste fino apropriado, treinamos um modelo para alterações precisas de iluminação com controle explícito sobre a intensidade e a cor da luz. Por fim, demonstramos como nosso método pode alcançar resultados convincentes na edição de luz e supera os métodos existentes com base na preferência do usuário.
O sucesso do aprendizado profundo em visão computacional na última década dependeu de grandes conjuntos de dados rotulados e modelos pré-treinados robustos. Em cenários com escassez de dados, a qualidade desses modelos pré-treinados torna-se crucial para uma transferência de aprendizado eficaz. A classificação de imagens e o aprendizado auto-supervisionado têm sido tradicionalmente os principais métodos para pré-treinar CNNs e arquiteturas baseadas em transformadores. Recentemente, o surgimento de modelos generativos de texto para imagem, particularmente aqueles que utilizam difusão de ruído em um espaço latente, introduziu uma nova classe de modelos fundamentais treinados em conjuntos massivos de imagens legendadas. A capacidade desses modelos de gerar imagens realistas de conteúdo nunca visto sugere que eles possuem um profundo entendimento do mundo visual. Neste trabalho, apresentamos Marigold, uma família de modelos generativos condicionais e um protocolo de ajuste fino que extrai o conhecimento de modelos de difusão latente pré-treinados, como o Stable Diffusion, e os adapta para tarefas de análise densa de imagens, incluindo estimativa de profundidade monocular, previsão de normais de superfície e decomposição intrínseca. O Marigold requer modificações mínimas na arquitetura do modelo de difusão latente pré-treinado, treina com pequenos conjuntos de dados sintéticos em uma única GPU ao longo de alguns dias e demonstra generalização zero-shot de última geração. Página do projeto: https://marigoldcomputervision.github.io
Recuperar cenas 3D de alta qualidade a partir de uma única imagem RGB é uma tarefa desafiadora em computação gráfica. Os métodos atuais frequentemente enfrentam limitações específicas de domínio ou geração de objetos de baixa qualidade. Para abordar esses problemas, propomos o CAST (Component-Aligned 3D Scene Reconstruction from a Single RGB Image), um método inovador para reconstrução e recuperação de cenas 3D. O CAST começa extraindo segmentação 2D em nível de objeto e informações de profundidade relativa da imagem de entrada, seguido pelo uso de um modelo baseado em GPT para analisar as relações espaciais entre objetos. Isso permite compreender como os objetos se relacionam dentro da cena, garantindo uma reconstrução mais coerente. O CAST então emprega um modelo de geração 3D em grande escala consciente de oclusões para gerar independentemente a geometria completa de cada objeto, utilizando MAE e condicionamento de nuvem de pontos para mitigar os efeitos de oclusões e informações parciais dos objetos, garantindo alinhamento preciso com a geometria e textura da imagem original. Para alinhar cada objeto à cena, o modelo de geração de alinhamento calcula as transformações necessárias, permitindo que as malhas geradas sejam posicionadas e integradas com precisão na nuvem de pontos da cena. Finalmente, o CAST incorpora uma etapa de correção consciente da física que utiliza um gráfico de relações refinado para gerar um gráfico de restrições. Esse gráfico orienta a otimização das poses dos objetos, garantindo consistência física e coerência espacial. Ao utilizar Campos de Distância Assinada (SDF), o modelo aborda efetivamente problemas como oclusões, penetração de objetos e objetos flutuantes, assegurando que a cena gerada reflita com precisão as interações físicas do mundo real. O CAST pode ser aplicado em robótica, permitindo fluxos de trabalho eficientes de real para simulação e fornecendo ambientes de simulação realistas e escaláveis para sistemas robóticos.
A mímica é um mecanismo fundamental de aprendizado em humanos, permitindo que indivíduos aprendam novas tarefas ao observar e imitar especialistas. No entanto, aplicar essa habilidade a robôs apresenta desafios significativos devido às diferenças inerentes entre as formas de atuação humana e robótica, tanto em sua aparência visual quanto em suas capacidades físicas. Embora métodos anteriores tenham buscado preencher essa lacuna utilizando conjuntos de dados de cenas e tarefas compartilhadas entre diferentes formas de atuação, coletar dados alinhados entre humanos e robôs em grande escala não é trivial. Neste artigo, propomos o UniSkill, uma estrutura inovadora que aprende representações de habilidades independentes da forma de atuação a partir de dados de vídeo em grande escala sem qualquer rotulação, permitindo que habilidades extraídas de prompts de vídeo humanos sejam efetivamente transferidas para políticas de robôs treinadas apenas com dados robóticos. Nossos experimentos, tanto em ambientes simulados quanto no mundo real, mostram que nossas habilidades de atuação cruzada orientam com sucesso os robôs na seleção de ações apropriadas, mesmo com prompts de vídeo nunca vistos. O site do projeto pode ser encontrado em: https://kimhanjung.github.io/UniSkill.
Modelos de diálogo falado de ponta a ponta, como o GPT-4o-audio, recentemente têm atraído atenção significativa no domínio da fala. No entanto, a avaliação do desempenho conversacional desses modelos de diálogo falado tem sido amplamente negligenciada. Isso ocorre principalmente porque os chatbots inteligentes transmitem uma riqueza de informações não textuais que não podem ser facilmente medidas usando modelos de linguagem baseados em texto, como o ChatGPT. Para abordar essa lacuna, propomos o WavReward, um modelo de feedback de recompensa baseado em modelos de linguagem de áudio que pode avaliar tanto o QI quanto o QE de sistemas de diálogo falado com entrada de fala. Especificamente, 1) com base em modelos de linguagem de áudio, o WavReward incorpora o processo de raciocínio profundo e o mecanismo de recompensa não linear para pós-treinamento. Ao utilizar feedback de múltiplas amostras por meio do algoritmo de aprendizado por reforço, construímos um avaliador especializado adaptado a modelos de diálogo falado. 2) Introduzimos o ChatReward-30K, um conjunto de dados de preferência usado para treinar o WavReward. O ChatReward-30K inclui tanto aspectos de compreensão quanto de geração de modelos de diálogo falado. Esses cenários abrangem várias tarefas, como chats baseados em texto, nove atributos acústicos de chats de instrução e chats implícitos. O WavReward supera os modelos de avaliação state-of-the-art anteriores em vários cenários de diálogo falado, alcançando uma melhoria substancial em relação ao Qwen2.5-Omni na precisão objetiva, de 55,1% para 91,5%. Em testes A/B subjetivos, o WavReward também lidera com uma margem de 83%. Estudos abrangentes de ablação confirmam a necessidade de cada componente do WavReward. Todos os dados e códigos estarão publicamente disponíveis em https://github.com/jishengpeng/WavReward após a aceitação do artigo.
A localização de problemas de software, a tarefa de identificar as localizações precisas do código (arquivos, classes ou funções) relevantes para uma descrição de problema em linguagem natural (por exemplo, relatório de bug, solicitação de recurso), é um aspecto crítico, porém demorado, do desenvolvimento de software. Embora abordagens recentes baseadas em LLMs (Modelos de Linguagem de Grande Escala) demonstrem potencial, elas frequentemente acarretam latência e custo significativos devido ao raciocínio complexo em múltiplas etapas e à dependência de LLMs de código fechado. Alternativamente, modelos tradicionais de classificação de código, geralmente otimizados para recuperação de consulta-para-código ou código-para-código, lutam com a natureza verbosa e descritiva de falhas das consultas de localização de problemas. Para preencher essa lacuna, introduzimos o SweRank, uma estrutura eficiente e eficaz de recuperação e reclassificação para localização de problemas de software. Para facilitar o treinamento, construímos o SweLoc, um conjunto de dados em larga escala extraído de repositórios públicos do GitHub, contendo descrições de problemas do mundo real emparelhadas com as modificações de código correspondentes. Resultados empíricos no SWE-Bench-Lite e LocBench mostram que o SweRank alcança desempenho de ponta, superando tanto modelos de classificação anteriores quanto sistemas baseados em agentes caros que utilizam LLMs de código fechado, como o Claude-3.5. Além disso, demonstramos a utilidade do SweLoc em aprimorar vários modelos existentes de recuperação e reclassificação para localização de problemas, estabelecendo o conjunto de dados como um recurso valioso para a comunidade.
Propomos o Omni-R1, que ajusta finamente um recente modelo de linguagem multimodal, o Qwen2.5-Omni, em um conjunto de dados de perguntas e respostas de áudio utilizando o método de aprendizado por reforço GRPO. Isso resulta em um novo desempenho de última geração no recente benchmark MMAU. O Omni-R1 alcança as maiores taxas de precisão nas categorias de sons, música, fala e média geral, tanto nas divisões Test-mini quanto Test-full. Para compreender a melhoria de desempenho, testamos modelos com e sem áudio e descobrimos que grande parte da melhoria de desempenho do GRPO pode ser atribuída a um raciocínio baseado em texto mais eficaz. Também fizemos uma descoberta surpreendente: o ajuste fino sem áudio em um conjunto de dados apenas de texto foi eficaz para melhorar o desempenho baseado em áudio.
Apesar dos avanços recentes na compreensão de vídeos, as capacidades dos Modelos de Linguagem de Vídeo de Grande Escala (LVLMs) para realizar raciocínio causal baseado em vídeo permanecem pouco exploradas, em grande parte devido à ausência de benchmarks relevantes e dedicados para avaliar o raciocínio causal em cenários visualmente fundamentados e orientados a objetivos. Para preencher essa lacuna, introduzimos um novo benchmark chamado Raciocínio Causal de Longo Prazo Baseado em Vídeo (VCRBench). Criamos o VCRBench utilizando vídeos procedimentais de atividades cotidianas simples, onde as etapas são deliberadamente embaralhadas, com cada clipe capturando um evento causal chave, para testar se os LVLMs conseguem identificar, raciocinar e sequenciar corretamente os eventos necessários para alcançar um objetivo específico. Além disso, o benchmark foi cuidadosamente projetado para evitar que os LVLMs explorem atalhos linguísticos, como visto em formatos de múltipla escolha ou perguntas binárias, ao mesmo tempo em que evita os desafios associados à avaliação de perguntas abertas. Nossa avaliação dos LVLMs de última geração no VCRBench sugere que esses modelos têm dificuldades com o raciocínio causal de longo prazo baseado em vídeo, principalmente devido à sua dificuldade em modelar dependências causais de longo alcance diretamente a partir de observações visuais. Como um passo simples para habilitar tais capacidades, propomos a Decomposição Reconhecimento-Raciocínio (RRD), uma abordagem modular que divide o raciocínio causal baseado em vídeo em duas sub-tarefas: reconhecimento de vídeo e raciocínio causal. Nossos experimentos no VCRBench mostram que o RRD aumenta significativamente a precisão no VCRBench, com ganhos de até 25,2%. Por fim, nossa análise detalhada revela insights interessantes, por exemplo, que os LVLMs dependem principalmente do conhecimento linguístico para tarefas complexas de raciocínio causal de longo prazo baseadas em vídeo.
Os conjuntos de dados de pré-treinamento são fundamentais para o desenvolvimento de modelos multimodais, mas frequentemente apresentam vieses inerentes e conteúdo tóxico proveniente dos corpora em escala da web dos quais são extraídos. Neste artigo, investigamos a prevalência de toxicidade no conjunto de dados de pré-treinamento de imagem-texto do LLaVA, examinando como o conteúdo prejudicial se manifesta em diferentes modalidades. Apresentamos uma análise abrangente das categorias comuns de toxicidade e propomos estratégias de mitigação direcionadas, resultando na criação de um conjunto de dados refinado com toxicidade mitigada. Esse conjunto de dados remove 7.531 pares de imagem-texto tóxicos do conjunto de dados de pré-treinamento do LLaVA. Oferecemos diretrizes para a implementação de pipelines robustos de detecção de toxicidade. Nossas descobertas destacam a necessidade de identificar e filtrar ativamente conteúdo tóxico - como discurso de ódio, imagens explícitas e assédio direcionado - para construir sistemas multimodais mais responsáveis e equitativos. O conjunto de dados com toxicidade mitigada é de código aberto e está disponível para pesquisas adicionais.
A tecnologia de reidentificação de pessoas (ReID) tem sido considerada relativamente eficaz em condições controladas e ao nível do solo, mas apresenta falhas quando implantada em cenários reais desafiadores. Evidentemente, isso se deve a fatores extremos de variabilidade dos dados, como resolução, mudanças de ponto de vista, variações de escala, oclusões e alterações de aparência devido a roupas ou mudanças de sessão. Além disso, os conjuntos de dados disponíveis publicamente não incorporam de forma realista esses tipos e magnitudes de variabilidade, o que limita o progresso dessa tecnologia. Este artigo apresenta o DetReIDX, um grande conjunto de dados aéreo-terrestre de pessoas, que foi explicitamente projetado como um teste de estresse para a ReID em condições do mundo real. O DetReIDX é um conjunto multi-sessão que inclui mais de 13 milhões de caixas delimitadoras de 509 identidades, coletadas em sete campi universitários de três continentes, com altitudes de drones variando entre 5,8 e 120 metros. Mais importante, como uma novidade crucial, os sujeitos do DetReIDX foram gravados em (pelo menos) duas sessões em dias diferentes, com mudanças de roupas, iluminação diurna e localização, tornando-o adequado para avaliar verdadeiramente a ReID de pessoas em longo prazo. Além disso, os dados foram anotados com 16 atributos biométricos suaves e rótulos multitarefa para detecção, rastreamento, ReID e reconhecimento de ações. Para fornecer evidências empíricas da utilidade do DetReIDX, consideramos as tarefas específicas de detecção humana e ReID, onde métodos de ponta (SOTA) degradam drasticamente o desempenho (até 80% na precisão de detecção e mais de 70% no Rank-1 de ReID) quando expostos às condições do DetReIDX. O conjunto de dados, as anotações e os protocolos oficiais de avaliação estão disponíveis publicamente em https://www.it.ubi.pt/DetReIDX/.
Recentemente, temos observado um rápido desenvolvimento de grandes Modelos de Visão e Linguagem (VLMs). Eles têm demonstrado resultados impressionantes em benchmarks acadêmicos, principalmente em idiomas amplamente falados, mas apresentam desempenho insuficiente em idiomas de baixo recurso e contextos culturais variados. Para abordar essas limitações, apresentamos o Maya, um VLM Multilíngue de código aberto. Nossas contribuições são: 1) um conjunto de dados de pré-treinamento de imagem-texto em oito idiomas, baseado no conjunto de dados de pré-treinamento do LLaVA; e 2) um modelo de imagem-texto multilíngue que suporta esses idiomas, aprimorando a compreensão cultural e linguística em tarefas de visão e linguagem. O código está disponível em https://github.com/nahidalam/maya.
O 3D Gaussian Splatting (3DGS) surgiu como uma técnica poderosa para a síntese de novas visões em tempo real e alta resolução. Ao representar cenas como uma mistura de primitivas Gaussianas, o 3DGS aproveita os pipelines de rasterização da GPU para renderização e reconstrução eficientes. Para otimizar a cobertura da cena e capturar detalhes finos, o 3DGS emprega um algoritmo de densificação para gerar pontos adicionais. No entanto, esse processo frequentemente resulta em nuvens de pontos redundantes, levando ao uso excessivo de memória, desempenho mais lento e demandas substanciais de armazenamento - o que representa desafios significativos para a implantação em dispositivos com recursos limitados. Para abordar essa limitação, propomos um framework teórico que desmistifica e melhora o controle de densidade no 3DGS. Nossa análise revela que a divisão é crucial para escapar de pontos de sela. Por meio de uma abordagem teórica de otimização, estabelecemos as condições necessárias para a densificação, determinamos o número mínimo de Gaussianas descendentes, identificamos a direção ideal de atualização dos parâmetros e fornecemos uma solução analítica para normalizar a opacidade das descendentes. Com base nessas percepções, introduzimos o SteepGS, que incorpora o controle de densidade mais acentuado, uma estratégia fundamentada que minimiza a perda enquanto mantém uma nuvem de pontos compacta. O SteepGS alcança uma redução de ~50% nos pontos Gaussianos sem comprometer a qualidade de renderização, melhorando significativamente tanto a eficiência quanto a escalabilidade.
Responder a perguntas visuais complexas como `Qual mobiliário vermelho pode ser usado para sentar?' requer raciocínio em múltiplas etapas, incluindo reconhecimento de objetos, filtragem de atributos e compreensão relacional. Trabalhos recentes melhoram a interpretabilidade em modelos de linguagem multimodal de grande escala (MLLMs) ao decompor tarefas em programas de subtarefas, mas esses métodos são computacionalmente caros e menos precisos devido à má adaptação aos dados de destino. Para resolver isso, introduzimos o VISTAR (Modelo de Raciocínio Consciente de Subtarefas Visualmente Interpretável), uma estrutura de treinamento orientada por subtarefas que aprimora tanto a interpretabilidade quanto o raciocínio ao gerar explicações textuais e visuais dentro dos MLLMs. Em vez de depender de modelos externos, o VISTAR ajusta finamente os MLLMs para produzir racionais estruturados de Subtarefas-de-Pensamento (sequências de raciocínio passo a passo). Experimentos em dois benchmarks mostram que o VISTAR melhora consistentemente a precisão do raciocínio enquanto mantém a interpretabilidade. Nosso código e conjunto de dados estarão disponíveis em https://github.com/ChengJade/VISTAR.