Artigos de pesquisa em IA selecionados diariamente com traduções
A otimização de instruções tem sido amplamente adotada para garantir que os grandes modelos de linguagem (LLMs) sigam as instruções do usuário de forma eficaz. As capacidades resultantes de seguir instruções dos LLMs dependem fortemente dos conjuntos de dados de instruções utilizados para a otimização. Recentemente, conjuntos de dados de instruções sintéticas surgiram como uma solução economicamente viável para fornecer instruções diversas e de alta qualidade aos LLMs. No entanto, abordagens existentes geralmente assumem que modelos maiores ou mais robustos são melhores professores para a otimização de instruções e, portanto, simplesmente adotam esses modelos como geradores de respostas para as instruções sintéticas. Neste artigo, desafiamos essa suposição comumente adotada. Nossos extensos experimentos com cinco modelos base e vinte geradores de respostas revelam que modelos maiores e mais robustos não são necessariamente melhores professores para modelos menores. Referimo-nos a esse fenômeno como Paradoxo dos Modelos Maiores. Observamos que métricas existentes não conseguem prever precisamente a eficácia dos geradores de respostas, uma vez que ignoram a compatibilidade entre os professores e os modelos base sendo ajustados. Desenvolvemos, portanto, uma nova métrica, denominada Recompensa Ajustada pela Compatibilidade (CAR) para medir a eficácia dos geradores de respostas. Nossos experimentos com cinco modelos base demonstram que o CAR supera quase todas as métricas de referência.
Apresentamos JanusFlow, um framework poderoso que unifica a compreensão e geração de imagens em um único modelo. JanusFlow introduz uma arquitetura minimalista que integra modelos de linguagem autoregressivos com fluxo retificado, um método de ponta em modelagem generativa. Nosso principal achado demonstra que o fluxo retificado pode ser treinado de forma direta dentro do framework do grande modelo de linguagem, eliminando a necessidade de modificações arquiteturais complexas. Para melhorar ainda mais o desempenho de nosso modelo unificado, adotamos duas estratégias-chave: (i) desacoplar os codificadores de compreensão e geração, e (ii) alinhar suas representações durante o treinamento unificado. Experimentos extensos mostram que JanusFlow alcança desempenho comparável ou superior a modelos especializados em seus respectivos domínios, enquanto supera significativamente abordagens unificadas existentes em benchmarks padrão. Este trabalho representa um passo em direção a modelos visão-linguagem mais eficientes e versáteis.
A segmentação de partes em 3D é uma tarefa crucial e desafiadora na percepção 3D, desempenhando um papel vital em aplicações como robótica, geração 3D e edição 3D. Métodos recentes aproveitam os poderosos Modelos de Linguagem de Visão (VLMs) para destilação de conhecimento de 2D para 3D, alcançando segmentação de partes em 3D sem a necessidade de treinamento. No entanto, esses métodos são limitados pela dependência de prompts de texto, o que restringe a escalabilidade para conjuntos de dados não rotulados em grande escala e a flexibilidade no tratamento de ambiguidades de partes. Neste trabalho, apresentamos o SAMPart3D, um framework escalável de segmentação de partes em 3D sem a necessidade de conjuntos de rótulos de partes predefinidos como prompts de texto. Para escalabilidade, utilizamos modelos de visão fundacional independentes de texto para destilar uma espinha dorsal de extração de características em 3D, permitindo a expansão para grandes conjuntos de dados 3D não rotulados para aprender priors 3D ricos. Para flexibilidade, destilamos características 3D de partes conscientes de escala para segmentação de partes em 3D em múltiplas granularidades. Uma vez que as partes segmentadas são obtidas a partir das características 3D de partes conscientes de escala, utilizamos VLMs para atribuir rótulos semânticos a cada parte com base nas renderizações de múltiplas visões. Em comparação com métodos anteriores, nosso SAMPart3D pode se adaptar ao recente conjunto de dados de objetos 3D em grande escala Objaverse e lidar com objetos complexos e não convencionais. Além disso, contribuímos com um novo benchmark de segmentação de partes em 3D para abordar a falta de diversidade e complexidade de objetos e partes nos benchmarks existentes. Experimentos mostram que nosso SAMPart3D supera significativamente os métodos existentes de segmentação de partes em 3D sem a necessidade de treinamento, e pode facilitar várias aplicações, como edição em nível de partes e segmentação interativa.
Apresentamos o BLIP3-KALE, um conjunto de dados com 218 milhões de pares de imagens e textos que preenche a lacuna entre legendas sintéticas descritivas e textos alternativos factuais em escala web. O KALE aumenta legendas sintéticas densas de imagens com textos alternativos em escala web para gerar legendas de imagens fundamentadas factualmente. Nosso método em duas etapas aproveita modelos grandes de visão-linguagem e modelos de linguagem para criar legendas enriquecidas de conhecimento, que são então utilizadas para treinar um VLM especializado para ampliar o conjunto de dados. Treinamos modelos de visão-linguagem no KALE e demonstramos melhorias em tarefas de visão-linguagem. Nossos experimentos mostram a utilidade do KALE para treinar modelos multimodais mais capazes e conhecedores. Lançamos o conjunto de dados KALE em https://huggingface.co/datasets/Salesforce/blip3-kale.
Neste artigo, argumentamos que a computação iterativa com modelos de difusão oferece um paradigma poderoso não apenas para geração, mas também para tarefas de percepção visual. Unificamos tarefas como estimativa de profundidade, fluxo óptico e segmentação sob a tradução de imagem para imagem, e mostramos como os modelos de difusão se beneficiam da escalabilidade do treinamento e da computação em tempo de teste para essas tarefas de percepção. Através de uma análise cuidadosa desses comportamentos de escalonamento, apresentamos várias técnicas para treinar eficientemente modelos de difusão para tarefas de percepção visual. Nossos modelos alcançam desempenho melhorado ou comparável aos métodos de ponta usando significativamente menos dados e computação. Para utilizar nosso código e modelos, consulte https://scaling-diffusion-perception.github.io.
Modelos generativos 3D em larga escala requerem recursos computacionais substanciais, mas frequentemente falham em capturar detalhes finos e geometrias complexas em altas resoluções. Atribuímos essa limitação à ineficiência das representações atuais, que carecem da compacidade necessária para modelar os generativos de forma eficaz. Para abordar isso, introduzimos uma abordagem inovadora chamada Difusão Latente de Wavelet, ou WaLa, que codifica formas 3D em codificações latentes compactas baseadas em wavelet. Especificamente, comprimimos um campo de distância assinada de 256^3 em uma grade latente de 12^3 vezes 4, alcançando uma impressionante taxa de compressão de 2427x com perda mínima de detalhes. Esse alto nível de compressão permite que nosso método treine eficientemente redes generativas em larga escala sem aumentar o tempo de inferência. Nossos modelos, tanto condicionais quanto incondicionais, contêm aproximadamente um bilhão de parâmetros e geram com sucesso formas 3D de alta qualidade em resolução de 256^3. Além disso, o WaLa oferece inferência rápida, produzindo formas em dois a quatro segundos, dependendo da condição, apesar da escala do modelo. Demonstramos desempenho de ponta em vários conjuntos de dados, com melhorias significativas na qualidade de geração, diversidade e eficiência computacional. Disponibilizamos nosso código aberto e, até onde sabemos, lançamos os maiores modelos generativos 3D pré-treinados em diferentes modalidades.
A síntese de áudio realista que captura fenômenos acústicos precisos é essencial para criar experiências imersivas em realidade virtual e aumentada. Sintetizar o som recebido em qualquer posição depende da estimativa da resposta ao impulso (RI), que caracteriza como o som se propaga em uma cena ao longo de diferentes caminhos antes de chegar à posição do ouvinte. Neste artigo, apresentamos o Rendering de Volume Acústico (AVR), uma abordagem inovadora que adapta técnicas de rendering de volume para modelar respostas ao impulso acústico. Enquanto o rendering de volume tem sido bem-sucedido na modelagem de campos de radiância para imagens e representações de cena neural, as RIs apresentam desafios únicos como sinais de séries temporais. Para enfrentar esses desafios, introduzimos o rendering de volume no domínio da frequência e utilizamos integração esférica para ajustar as medições da RI. Nosso método constrói um campo de resposta ao impulso que codifica inerentemente os princípios de propagação de ondas e alcança um desempenho de ponta na síntese de respostas ao impulso para poses inovadoras. Experimentos mostram que o AVR supera substancialmente os métodos líderes atuais. Além disso, desenvolvemos uma plataforma de simulação acústica, AcoustiX, que fornece simulações de RI mais precisas e realistas do que os simuladores existentes. O código para o AVR e o AcoustiX está disponível em https://zitonglan.github.io/avr.
Atualmente, é uma prática comercial comum comprar acesso à inferência de grandes modelos de linguagem (LLM) em vez de hospedá-los internamente, devido aos significativos custos iniciais de infraestrutura de hardware e energia. No entanto, como comprador, não há um mecanismo para verificar a autenticidade do serviço anunciado, incluindo a plataforma de hardware de servidores, por exemplo, se está sendo realmente servido usando um NVIDIA H100. Além disso, há relatos sugerindo que os provedores de modelos podem fornecer modelos ligeiramente diferentes dos anunciados, muitas vezes para fazê-los funcionar em hardware mais barato. Dessa forma, um cliente paga um prêmio por acesso a um modelo capaz em hardware mais caro, mas acaba sendo servido por um modelo mais barato (potencialmente menos capaz) em hardware mais barato. Neste artigo, introduzimos a \textbf{inferência de plataforma de hardware e software (HSPI)} - um método para identificar a arquitetura subjacente e a pilha de software de um modelo de aprendizado de máquina (caixa-preta) com base exclusivamente em seu comportamento de entrada e saída. Nosso método aproveita as diferenças inerentes de várias arquiteturas e compiladores para distinguir entre diferentes tipos e pilhas de software. Ao analisar os padrões numéricos nas saídas do modelo, propomos um framework de classificação capaz de identificar com precisão o hardware usado para a inferência do modelo, bem como a configuração de software subjacente. Nossas descobertas demonstram a viabilidade de inferir o tipo de hardware a partir de modelos caixa-preta. Avaliamos o HSPI em relação a modelos servidos em diferentes hardwares reais e descobrimos que em um ambiente de caixa-branca podemos distinguir entre diferentes tipos com uma precisão entre 83,9% e 100%. Mesmo em um ambiente de caixa-preta, conseguimos obter resultados até três vezes mais altos do que a precisão de um palpite aleatório.