Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos phi-4, um modelo de linguagem com 14 bilhões de parâmetros desenvolvido com uma receita de treinamento centralmente focada na qualidade dos dados. Ao contrário da maioria dos modelos de linguagem, nos quais o pré-treinamento é baseado principalmente em fontes de dados orgânicos, como conteúdo da web ou código, o phi-4 incorpora estrategicamente dados sintéticos ao longo do processo de treinamento. Enquanto modelos anteriores da família Phi em grande parte destilam as capacidades de um modelo professor (especificamente GPT-4), o phi-4 supera substancialmente seu modelo professor em capacidades de perguntas e respostas focadas em STEM, evidenciando que nossas técnicas de geração de dados e pós-treinamento vão além da destilação. Apesar de mudanças mínimas na arquitetura do phi-3, o phi-4 alcança um desempenho sólido em relação ao seu tamanho - especialmente em benchmarks focados em raciocínio - devido a melhorias nos dados, no currículo de treinamento e inovações no esquema de pós-treinamento.
A criação de sistemas de IA capazes de interagir com ambientes por longos períodos, semelhante à cognição humana, tem sido um objetivo de pesquisa de longa data. Avanços recentes em modelos de linguagem multimodais de grande escala (MLLMs) têm feito progressos significativos na compreensão de mundo aberto. No entanto, o desafio da percepção contínua e simultânea em streaming, memória e raciocínio permanece amplamente inexplorado. Os MLLMs atuais são limitados por sua arquitetura sequência a sequência, o que restringe sua capacidade de processar entradas e gerar respostas simultaneamente, semelhante a não ser capaz de pensar enquanto percebe. Além disso, depender de contextos longos para armazenar dados históricos é impraticável para interações de longo prazo, pois reter todas as informações se torna caro e ineficiente. Portanto, em vez de depender de um único modelo fundamental para realizar todas as funções, este projeto se inspira no conceito de IA Generalista Especializada e introduz mecanismos de percepção, raciocínio e memória em streaming desembaraçados, permitindo interação em tempo real com entrada de vídeo e áudio em streaming. O framework proposto InternLM-XComposer2.5-OmniLive (IXC2.5-OL) consiste em três módulos principais: (1) Módulo de Percepção em Streaming: Processa informações multimodais em tempo real, armazenando detalhes-chave na memória e acionando o raciocínio em resposta a consultas do usuário. (2) Módulo de Memória Longa Multimodal: Integra memória de curto prazo e longo prazo, comprimindo memórias de curto prazo em memórias de longo prazo para recuperação eficiente e precisão aprimorada. (3) Módulo de Raciocínio: Responde a consultas e executa tarefas de raciocínio, coordenando-se com os módulos de percepção e memória. Este projeto simula a cognição semelhante à humana, permitindo que modelos de linguagem multimodais de grande escala forneçam um serviço contínuo e adaptativo ao longo do tempo.
Os modelos de linguagem multimodais de grande escala (MLLMs) avançaram rapidamente nos últimos anos, mas continuam a enfrentar dificuldades com a percepção visual de baixo nível (LLVP) - especialmente a capacidade de descrever com precisão os detalhes geométricos de uma imagem. Essa capacidade é crucial para aplicações em áreas como robótica, análise de imagens médicas e manufatura. Neste artigo, primeiro apresentamos o Geoperception, um benchmark projetado para avaliar a capacidade de um MLLM transcrever com precisão informações geométricas 2D de uma imagem. Usando este benchmark, demonstramos as limitações dos principais MLLMs e, em seguida, realizamos um estudo empírico abrangente para explorar estratégias para melhorar seu desempenho em tarefas geométricas. Nossas descobertas destacam os benefícios de certas arquiteturas de modelo, técnicas de treinamento e estratégias de dados, incluindo o uso de dados sintéticos de alta fidelidade e treinamento em múltiplas etapas com um currículo de dados. Notavelmente, descobrimos que um currículo de dados permite que os modelos aprendam tarefas desafiadoras de compreensão de geometria que eles não conseguem aprender do zero. Aproveitando essas percepções, desenvolvemos o Euclides, uma família de modelos otimizados especificamente para uma forte percepção geométrica de baixo nível. Embora treinado exclusivamente em dados multimodais sintéticos, o Euclides demonstra uma forte capacidade de generalização para formas geométricas novas. Por exemplo, o Euclides supera o melhor modelo de código fechado, Gemini-1.5-Pro, em até 58,56% em determinadas tarefas do benchmark Geoperception e 10,65% em média em todas as tarefas.
À medida que os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) evoluem, expandir além das capacidades de um único domínio é essencial para atender às demandas por uma IA mais versátil e eficiente. No entanto, os modelos omni anteriores exploraram insuficientemente a fala, negligenciando sua integração com a multimodalidade. Apresentamos o Lyra, um MLLM eficiente que aprimora as habilidades multimodais, incluindo compreensão avançada de longas falas, compreensão de áudio, eficiência de cruzamento de modalidades e interação de fala contínua. Para alcançar eficiência e capacidades centradas na fala, o Lyra emprega três estratégias: (1) aproveitando modelos grandes de código aberto existentes e um LoRA de multimodalidade proposto para reduzir custos de treinamento e requisitos de dados; (2) utilizando um regularizador e extrator latente de multimodalidade para fortalecer a relação entre a fala e outras modalidades, melhorando assim o desempenho do modelo; e (3) construindo um conjunto de dados extenso e de alta qualidade que inclui 1,5 milhão de amostras de dados multimodais (linguagem, visão, áudio) e 12 mil amostras de longas falas, permitindo que o Lyra lide com entradas de longas falas complexas e alcance uma cognição omni mais robusta. Comparado a outros métodos omni, o Lyra alcança um desempenho de ponta em vários benchmarks de visão-linguagem, visão-fala e fala-linguagem, enquanto também utiliza menos recursos computacionais e menos dados de treinamento.
Modelos generativos multimodais requerem uma abordagem unificada para lidar tanto com dados discretos (por exemplo, texto e código) quanto com dados contínuos (por exemplo, imagem, áudio, vídeo). Neste trabalho, propomos Modelagem de Linguagem Latente (LatentLM), que integra de forma contínua dados contínuos e discretos usando Transformadores causais. Especificamente, empregamos um autoencoder variacional (VAE) para representar dados contínuos como vetores latentes e introduzimos difusão do próximo token para geração autoregressiva desses vetores. Adicionalmente, desenvolvemos sigma-VAE para lidar com os desafios do colapso de variância, o que é crucial para modelagem autoregressiva. Experimentos extensivos demonstram a eficácia do LatentLM em várias modalidades. Na geração de imagens, o LatentLM supera os Transformadores de Difusão tanto em desempenho quanto em escalabilidade. Quando integrado em grandes modelos de linguagem multimodais, o LatentLM fornece uma interface de uso geral que unifica a geração e compreensão multimodais. Resultados experimentais mostram que o LatentLM alcança desempenho favorável em comparação com os modelos Transfusion e quantizados por vetor na configuração de aumento de tokens de treinamento. Na síntese de texto para fala, o LatentLM supera o modelo VALL-E 2 de última geração em similaridade e robustez de locutor, enquanto requer 10 vezes menos etapas de decodificação. Os resultados estabelecem o LatentLM como uma abordagem altamente eficaz e escalável para avançar em grandes modelos multimodais.
Agentes de Interface Gráfica do Usuário (GUI) possuem um grande potencial para automatizar tarefas complexas em diversos ambientes digitais, desde aplicações web até software de desktop. No entanto, o desenvolvimento desses agentes é prejudicado pela falta de dados de trajetória de alta qualidade e multi-etapas necessários para um treinamento eficaz. Abordagens existentes dependem de anotações humanas caras e intensivas em trabalho, tornando-as insustentáveis em grande escala. Para enfrentar esse desafio, propomos o AgentTrek, um pipeline escalável de síntese de dados que gera trajetórias de agentes GUI de alta qualidade ao aproveitar tutoriais web. Nosso método reúne automaticamente textos semelhantes a tutoriais da internet, os transforma em metas de tarefas com instruções passo a passo, e emprega um agente de modelo de linguagem visual para simular sua execução em um ambiente digital real. Um avaliador baseado em VLM garante a correção das trajetórias geradas. Demonstramos que treinar agentes GUI com essas trajetórias sintetizadas melhora significativamente sua fundamentação e desempenho de planejamento em relação aos modelos atuais. Além disso, nossa abordagem é mais eficiente em custos em comparação com métodos tradicionais de anotação humana. Este trabalho destaca o potencial da reprodução guiada com tutoriais web como uma estratégia viável para o treinamento em larga escala de agentes GUI, abrindo caminho para agentes digitais mais capazes e autônomos.
Os modelos de difusão texto-para-imagem (T2I) existentes enfrentam várias limitações, incluindo tamanhos de modelo grandes, tempo de execução lento e geração de baixa qualidade em dispositivos móveis. Este artigo tem como objetivo abordar todos esses desafios desenvolvendo um modelo T2I extremamente pequeno e rápido que gera imagens de alta resolução e alta qualidade em plataformas móveis. Propomos várias técnicas para alcançar esse objetivo. Primeiramente, examinamos sistematicamente as escolhas de design da arquitetura da rede para reduzir os parâmetros do modelo e a latência, garantindo ao mesmo tempo uma geração de alta qualidade. Em segundo lugar, para melhorar ainda mais a qualidade da geração, empregamos a destilação de conhecimento entre arquiteturas de forma cruzada de um modelo muito maior, utilizando uma abordagem multinível para orientar o treinamento do nosso modelo do zero. Em terceiro lugar, possibilitamos uma geração em poucas etapas integrando orientação adversarial com destilação de conhecimento. Pela primeira vez, nosso modelo SnapGen demonstra a geração de imagens de 1024x1024 px em um dispositivo móvel em cerca de 1,4 segundos. No ImageNet-1K, nosso modelo, com apenas 372M de parâmetros, alcança um FID de 2,06 para geração de 256x256 px. Nos benchmarks T2I (ou seja, GenEval e DPG-Bench), nosso modelo com meros 379M de parâmetros supera modelos em grande escala com bilhões de parâmetros em um tamanho significativamente menor (por exemplo, 7x menor que SDXL, 14x menor que IF-XL).
Foram observadas conquistas significativas na personalização de modelos de difusão. Métodos convencionais sem ajuste principalmente codificam várias imagens de referência pela média de seus embeddings de imagem como condição de injeção, mas tal operação independente de imagem não pode interagir entre as imagens para capturar elementos visuais consistentes dentro de múltiplas referências. Embora a adaptação de baixa patente baseada em ajuste (LoRA) possa extrair efetivamente elementos consistentes dentro de várias imagens durante o processo de treinamento, ela exige ajustes específicos para cada grupo de imagens distintas. Este artigo apresenta o EasyRef, um novo método de adaptação plug-and-play que permite que modelos de difusão sejam condicionados a várias imagens de referência e à instrução de texto. Para explorar efetivamente elementos visuais consistentes dentro de várias imagens, aproveitamos as capacidades de compreensão de múltiplas imagens e de seguir instruções do modelo de linguagem multimodal grande (MLLM), instruindo-o a capturar elementos visuais consistentes com base na instrução. Além disso, injetar as representações do MLLM no processo de difusão por meio de adaptadores pode facilmente generalizar para domínios não vistos, minerando os elementos visuais consistentes dentro de dados não vistos. Para mitigar custos computacionais e aprimorar a preservação de detalhes refinados, introduzimos uma estratégia eficiente de agregação de referência e um esquema de treinamento progressivo. Por fim, apresentamos o MRBench, um novo benchmark de geração de imagens de múltiplas referências. Resultados experimentais demonstram que o EasyRef supera tanto métodos sem ajuste como o IP-Adapter quanto métodos baseados em ajuste como o LoRA, alcançando qualidade estética superior e generalização robusta de zero-shot em diversos domínios.
Dado o rápido progresso da IA generativa, há uma necessidade urgente de comparar e escolher sistematicamente entre os numerosos modelos e configurações disponíveis. A escala e versatilidade dessas avaliações tornam o uso de juízes baseados em LLM uma solução convincente para esse desafio. Crucialmente, esse enfoque requer primeiro validar a qualidade do juiz LLM em si. Trabalhos anteriores têm se concentrado na avaliação baseada em instâncias de juízes LLM, onde um juiz é avaliado em um conjunto de respostas, ou pares de respostas, sem considerar seus sistemas de origem. Argumentamos que essa abordagem negligencia fatores críticos que afetam a classificação em nível de sistema, como o viés positivo ou negativo de um juiz em relação a certos sistemas. Para abordar essa lacuna, realizamos o primeiro estudo em larga escala de juízes LLM como classificadores de sistema. As pontuações do sistema são geradas pela agregação de pontuações de julgamento em várias saídas do sistema, e a qualidade do juiz é avaliada comparando a classificação resultante do sistema com uma classificação baseada em humanos. Além da avaliação geral do juiz, nossa análise fornece uma caracterização detalhada do comportamento do juiz, incluindo sua decisão e viés.
Recuperar a geometria e os materiais de objetos a partir de uma única imagem é desafiador devido à sua natureza subdeterminada. Neste artigo, apresentamos o Neural LightRig, um novo framework que impulsiona a estimativa intrínseca ao alavancar condições auxiliares de multi-iluminação a partir de priors de difusão 2D. Especificamente, 1) primeiro utilizamos priors de iluminação de modelos de difusão em larga escala para construir nosso modelo de difusão de multi-iluminação em um conjunto de dados de relighting sintético com designs dedicados. Este modelo de difusão gera múltiplas imagens consistentes, cada uma iluminada por fontes de luz pontuais em direções diferentes. 2) Ao utilizar essas imagens de iluminação variadas para reduzir a incerteza na estimativa, treinamos um grande modelo G-buffer com uma espinha dorsal U-Net para prever com precisão normais de superfície e materiais. Experimentos extensivos validam que nossa abordagem supera significativamente os métodos de ponta, possibilitando a estimativa precisa de normais de superfície e materiais PBR com efeitos de relighting vívidos. O código e o conjunto de dados estão disponíveis em nossa página do projeto em https://projects.zxhezexin.com/neural-lightrig.
A aproximação de Equações Diferenciais Parciais (EDPs) usando redes neurais tem visto avanços significativos por meio das Redes Neurais Informadas por Física (PINNs). Apesar da estrutura de otimização direta e da flexibilidade na implementação de várias EDPs, as PINNs frequentemente sofrem com precisão limitada devido ao viés espectral das Redes de Perceptrons de Múltiplas Camadas (MLPs), que têm dificuldade em aprender efetivamente componentes de alta frequência e não lineares. Recentemente, representações paramétricas de malha em combinação com redes neurais têm sido investigadas como uma abordagem promissora para eliminar os viés indutivos das redes neurais. No entanto, geralmente exigem grades de alta resolução e um grande número de pontos de colocalização para alcançar alta precisão, evitando problemas de sobreajuste. Além disso, as posições fixas dos parâmetros da malha restringem sua flexibilidade, tornando desafiador aproximar com precisão EDPs complexas. Para superar essas limitações, propomos Gaussianas Informadas por Física (PIGs), que combinam incorporações de recursos usando funções gaussianas com uma rede neural leve. Nossa abordagem usa parâmetros treináveis para a média e variância de cada gaussiana, permitindo o ajuste dinâmico de suas posições e formas durante o treinamento. Essa adaptabilidade permite que nosso modelo aproxime de forma ótima soluções de EDP, ao contrário de modelos com posições de parâmetros fixas. Além disso, a abordagem proposta mantém a mesma estrutura de otimização usada nas PINNs, permitindo que aproveitemos suas excelentes propriedades. Resultados experimentais mostram o desempenho competitivo de nosso modelo em várias EDPs, demonstrando seu potencial como uma ferramenta robusta para resolver EDPs complexas. Nossa página do projeto está disponível em https://namgyukang.github.io/Physics-Informed-Gaussians/
Sensores modernos produzem fluxos de dados cada vez mais ricos em alta resolução. Devido a restrições de recursos, sistemas de aprendizado de máquina descartam a vasta maioria dessas informações por meio da redução de resolução. A aprendizagem no domínio comprimido permite que modelos operem em representações latentes compactas, possibilitando uma resolução efetiva mais alta para o mesmo orçamento. No entanto, os sistemas de compressão existentes não são ideais para a aprendizagem comprimida. A codificação de transformada linear e os sistemas de compressão aprendidos de ponta a ponta reduzem a taxa de bits, mas não reduzem uniformemente a dimensionalidade; assim, não aumentam significativamente a eficiência. Autoencoders generativos reduzem a dimensionalidade, mas seus objetivos adversariais ou perceptuais levam a perdas significativas de informação. Para lidar com essas limitações, apresentamos o WaLLoC (Compressão com Perda Aprendida por Wavelet), uma arquitetura de codec neural que combina codificação de transformada linear com autoencoders não lineares redutores de dimensionalidade. O WaLLoC coloca um autoencoder raso e assimétrico e um gargalo de entropia entre uma transformada de pacote de wavelet invertível. Em várias métricas-chave, o WaLLoC supera os autoencoders usados nos modelos de difusão latente de última geração. O WaLLoC não requer perdas perceptuais ou adversariais para representar detalhes de alta frequência, proporcionando compatibilidade com modalidades além de imagens RGB e áudio estéreo. O codificador do WaLLoC consiste quase inteiramente de operações lineares, tornando-o excepcionalmente eficiente e adequado para computação móvel, sensoriamento remoto e aprendizado diretamente a partir de dados comprimidos. Demonstramos a capacidade do WaLLoC para aprendizagem no domínio comprimido em várias tarefas, incluindo classificação de imagens, colorização, compreensão de documentos e separação de fontes musicais. Nosso código, experimentos e codecs de áudio e imagem pré-treinados estão disponíveis em https://ut-sysml.org/walloc
Este estudo apresenta uma nova técnica de super-resolução de imagem (SR) baseada em inversão de difusão, com o objetivo de aproveitar os ricos conhecimentos prévios de imagem encapsulados em grandes modelos de difusão pré-treinados para melhorar o desempenho de SR. Nós projetamos uma estratégia de Previsão Parcial de Ruído para construir um estado intermediário do modelo de difusão, que serve como ponto de amostragem inicial. No centro de nossa abordagem está um preditor de ruído profundo para estimar os mapas de ruído ótimos para o processo de difusão direta. Uma vez treinado, este preditor de ruído pode ser usado para inicializar parcialmente o processo de amostragem ao longo da trajetória de difusão, gerando o resultado de alta resolução desejado. Comparado às abordagens existentes, nosso método oferece um mecanismo de amostragem flexível e eficiente que suporta um número arbitrário de etapas de amostragem, variando de uma a cinco. Mesmo com uma única etapa de amostragem, nosso método demonstra desempenho superior ou comparável às abordagens recentes de ponta. O código e o modelo estão disponíveis publicamente em https://github.com/zsyOAOA/InvSR.
Com a crescente adoção e capacidades dos modelos de visão-linguagem (VLMs), surge a necessidade de benchmarks que capturem interações autênticas entre usuários e VLMs. Em resposta, criamos o VisionArena, um conjunto de dados com 230 mil conversas do mundo real entre usuários e VLMs. Coletado do Chatbot Arena - uma plataforma de código aberto onde os usuários interagem com VLMs e enviam votos de preferência - o VisionArena abrange 73 mil usuários únicos, 45 VLMs e 138 idiomas. Nosso conjunto de dados contém três subconjuntos: VisionArena-Chat, 200 mil conversas de turno único e múltiplo entre um usuário e um VLM; VisionArena-Battle, 30 mil conversas comparando dois VLMs anônimos com votos de preferência do usuário; e VisionArena-Bench, um benchmark automático com 500 prompts diversos de usuários que aproximam eficientemente as classificações de modelos ao vivo do Chatbot Arena. Além disso, destacamos os tipos de perguntas feitas pelos usuários, a influência do estilo de resposta na preferência e áreas onde os modelos frequentemente falham. Descobrimos que tarefas abertas como legendagem e humor são altamente dependentes do estilo, e os VLMs atuais têm dificuldade com raciocínio espacial e tarefas de planejamento. Por fim, mostramos que o ajuste fino do mesmo modelo base no VisionArena-Chat supera o Llava-Instruct-158K, com um aumento de 17 pontos no MMMU e um aumento de 46 pontos no benchmark WildVision. Conjunto de dados em https://huggingface.co/lmarena-ai
A prática padrão para desenvolver MLLMs contemporâneos é alimentar características de um ou mais codificadores de visão no LLM e treinar com supervisão de linguagem natural. Neste trabalho, postulamos uma oportunidade negligenciada de otimizar as representações intermediárias do LLM por meio de uma perspectiva visual (objetivo), ou seja, apenas a supervisão de linguagem natural é subótima para a capacidade de compreensão visual do MLLM. Com esse propósito, propomos o OLA-VLM, a primeira abordagem que destila conhecimento nas representações ocultas do LLM a partir de um conjunto de representações visuais-alvo. Primeiramente, formulamos o objetivo durante a etapa de pré-treinamento em MLLMs como uma otimização acoplada da incorporação visual preditiva e da próxima previsão de token de texto. Em segundo lugar, investigamos MLLMs treinados exclusivamente com supervisão de linguagem natural e identificamos uma correlação positiva entre a qualidade das representações visuais dentro desses modelos e seu desempenho subsequente. Além disso, ao investigar nosso OLA-VLM, observamos uma melhoria na qualidade da representação devido à otimização da incorporação. Em terceiro lugar, demonstramos que nosso OLA-VLM supera as linhas de base de codificador único e multi, comprovando a superioridade de nossa abordagem em relação à alimentação explícita das características correspondentes para o LLM. Especificamente, o OLA-VLM melhora o desempenho em uma margem média de até 2,5% em vários benchmarks, com uma melhoria significativa de 8,7% na tarefa de Profundidade no CV-Bench. Nosso código está disponível em código aberto em https://github.com/SHI-Labs/OLA-VLM.
Este artigo apresenta o RuleArena, um novo e desafiador benchmark projetado para avaliar a capacidade de grandes modelos de linguagem (LLMs) de seguir regras complexas do mundo real no raciocínio. Abrangendo três domínios práticos - taxas de bagagem aérea, transações da NBA e regulamentações fiscais - o RuleArena avalia a proficiência dos LLMs em lidar com instruções intrincadas em linguagem natural que exigem compreensão de contexto extenso, raciocínio lógico e cálculos matemáticos precisos. Duas características-chave distinguem o RuleArena dos benchmarks tradicionais de raciocínio baseado em regras: (1) ele vai além das representações padrão de lógica de primeira ordem e (2) está fundamentado em cenários autênticos e práticos, fornecendo insights sobre a adequação e confiabilidade dos LLMs para aplicações do mundo real. Nossas descobertas revelam várias limitações notáveis nos LLMs: (1) eles têm dificuldade em identificar e aplicar as regras apropriadas, frequentemente se confundindo com regulamentações semelhantes, mas distintas, (2) eles não conseguem realizar cálculos matemáticos precisos de forma consistente, mesmo quando identificam corretamente as regras relevantes e (3) de forma geral, têm um desempenho fraco no benchmark. Esses resultados destacam desafios significativos em avançar as capacidades de raciocínio guiado por regras dos LLMs em aplicações da vida real.
O uso de materiais protegidos por direitos autorais no treinamento de modelos de linguagem generativa levanta questões legais e éticas críticas. Este artigo apresenta um framework e os resultados da avaliação empírica do impacto de materiais protegidos por direitos autorais no desempenho de grandes modelos de linguagem (LLMs) para o norueguês. Descobrimos que tanto livros quanto jornais contribuem positivamente quando os modelos são avaliados em um conjunto diversificado de benchmarks noruegueses, enquanto obras de ficção possivelmente levam a uma diminuição no desempenho. Nossos experimentos poderiam informar a criação de um esquema de compensação para autores cujas obras contribuem para o desenvolvimento de IA.
A Desambiguação de Sentido de Palavras (DSP) é a tarefa de associar uma palavra em um determinado contexto com seu significado mais adequado entre um conjunto de candidatos possíveis. Embora a tarefa tenha recentemente despertado um interesse renovado, com sistemas alcançando desempenhos acima do acordo interanotador estimado, no momento da escrita ainda enfrenta dificuldades para encontrar aplicações práticas. Argumentamos que uma das razões para isso é a dificuldade de aplicar a DSP a texto simples. De fato, na formulação padrão, os modelos operam sob a premissa de que a) todas as extensões a serem desambiguadas já foram identificadas e b) todos os possíveis sentidos candidatos de cada extensão são fornecidos, ambos requisitos que estão longe de ser triviais. Neste trabalho, apresentamos uma nova tarefa chamada Vinculação de Sentido de Palavras (VSP) onde, dado um texto de entrada e um inventário de sentidos de referência, os sistemas devem tanto identificar quais extensões desambiguar quanto vinculá-las ao seu significado mais adequado. Propomos uma arquitetura baseada em transformadores para a tarefa e avaliamos minuciosamente tanto seu desempenho quanto o daqueles dos sistemas de DSP de ponta adaptados para VSP, relaxando iterativamente as premissas da DSP. Esperamos que nosso trabalho promova uma integração mais fácil da semântica lexical em aplicações práticas.
Fluxos Normalizadores (NFs) são modelos baseados em verossimilhança para entradas contínuas. Eles têm demonstrado resultados promissores tanto em estimação de densidade quanto em tarefas de modelagem generativa, mas receberam relativamente pouca atenção nos últimos anos. Neste trabalho, demonstramos que os NFs são mais poderosos do que se acreditava anteriormente. Apresentamos o TarFlow: uma arquitetura simples e escalável que permite modelos NF altamente eficientes. O TarFlow pode ser considerado como uma variante baseada em Transformer dos Fluxos Autoregressivos Mascaramentados (MAFs): consiste em uma pilha de blocos autoregressivos do Transformer em patches de imagem, alternando a direção da autoregressão entre as camadas. O TarFlow é fácil de treinar de ponta a ponta e capaz de modelar e gerar pixels diretamente. Também propomos três técnicas-chave para melhorar a qualidade das amostras: aumento de ruído gaussiano durante o treinamento, um procedimento de pós-treinamento de remoção de ruído e um método eficaz de orientação tanto para configurações condicionais de classe quanto incondicionais. Ao juntar esses elementos, o TarFlow estabelece novos resultados de ponta em estimação de verossimilhança para imagens, superando os métodos anteriores por uma grande margem, e gera amostras com qualidade e diversidade comparáveis aos modelos de difusão, pela primeira vez com um modelo NF independente. Disponibilizamos nosso código em https://github.com/apple/ml-tarflow.
Os avanços recentes na personalização de texto para imagem têm possibilitado a geração de imagens personalizadas de alta fidelidade e ricas em contexto, permitindo que conceitos específicos apareçam em uma variedade de cenários. No entanto, os métodos atuais enfrentam dificuldades em combinar múltiplos modelos personalizados, frequentemente resultando em emaranhamento de atributos ou exigindo treinamentos separados para preservar a distinção de conceitos. Apresentamos o LoRACLR, uma abordagem inovadora para geração de imagens multi-conceito que mescla múltiplos modelos LoRA, cada um ajustado para um conceito distinto, em um único modelo unificado sem necessidade de ajustes individuais adicionais. O LoRACLR utiliza um objetivo contrastivo para alinhar e mesclar os espaços de pesos desses modelos, garantindo compatibilidade e minimizando interferências. Ao impor representações distintas e coesas para cada conceito, o LoRACLR possibilita a composição eficiente e escalável de modelos para síntese de imagens multi-conceito de alta qualidade. Nossos resultados destacam a eficácia do LoRACLR em mesclar com precisão múltiplos conceitos, avançando as capacidades de geração de imagens personalizadas.
Os modelos de reconstrução de visão esparsa existentes dependem fortemente de poses de câmera conhecidas com precisão. No entanto, derivar extrínsecos e intrínsecos da câmera a partir de imagens de visão esparsa apresenta desafios significativos. Neste trabalho, apresentamos o FreeSplatter, um framework de reconstrução altamente escalável e direto, capaz de gerar Gaussiana 3D de alta qualidade a partir de imagens de visão esparsa não calibradas e recuperar seus parâmetros de câmera em apenas alguns segundos. O FreeSplatter é construído com base em uma arquitetura de transformador simplificada, composta por blocos de autoatenção sequenciais que facilitam a troca de informações entre tokens de imagem de várias visualizações e as decodificam em primitivas 3D Gaussiana por pixel. As primitivas Gaussianas previstas estão situadas em um quadro de referência unificado, permitindo modelagem 3D de alta fidelidade e estimativa instantânea de parâmetros de câmera usando solucionadores prontos para uso. Para atender tanto à reconstrução centrada em objetos quanto em nível de cena, treinamos duas variantes de modelo do FreeSplatter em conjuntos de dados extensos. Em ambos os cenários, o FreeSplatter supera as linhas de base de última geração em termos de qualidade de reconstrução e precisão de estimativa de pose. Além disso, demonstramos o potencial do FreeSplatter em aprimorar a produtividade de aplicações subsequentes, como criação de conteúdo texto/imagem para 3D.
A animação de imagem humana controlável tem como objetivo gerar vídeos a partir de imagens de referência usando vídeos de direção. Devido aos sinais de controle limitados fornecidos por orientações esparsas (por exemplo, pose de esqueleto), trabalhos recentes têm tentado introduzir condições densas adicionais (por exemplo, mapa de profundidade) para garantir o alinhamento de movimento. No entanto, tais orientações densas estritas prejudicam a qualidade do vídeo gerado quando a forma do corpo do personagem de referência difere significativamente da do vídeo de direção. Neste artigo, apresentamos o DisPose para extrair sinais de controle mais generalizáveis e eficazes sem entrada densa adicional, que desvincula a pose de esqueleto esparsa na animação de imagem humana em orientação de campo de movimento e correspondência de pontos-chave. Especificamente, geramos um campo de movimento denso a partir de um campo de movimento esparsa e da imagem de referência, que fornece orientação densa em nível de região mantendo a generalização do controle de pose esparsa. Também extraímos características de difusão correspondentes a pontos de pose da imagem de referência, e então essas características de ponto são transferidas para a pose alvo para fornecer informações de identidade distintas. Para integrar-se perfeitamente aos modelos existentes, propomos um ControlNet híbrido plug-and-play que melhora a qualidade e consistência dos vídeos gerados enquanto congela os parâmetros do modelo existente. Experimentos qualitativos e quantitativos extensivos demonstram a superioridade do DisPose em comparação com os métodos atuais. Código: https://github.com/lihxxx/DisPose.
Os conjuntos de testes fixos tradicionais são insuficientes para avaliar as capacidades de resposta aberta dos modelos de base. Para resolver isso, propomos o ONEBench (OpeN-Ended Benchmarking), um novo paradigma de teste que consolida conjuntos de dados de avaliação individuais em um pool de amostras unificado e em constante expansão. O ONEBench permite aos usuários gerar benchmarks de avaliação personalizados e abertos a partir desse pool, correspondendo a capacidades específicas de interesse. Ao agregar amostras de conjuntos de testes, o ONEBench possibilita a avaliação de diversas capacidades além daquelas cobertas pelos conjuntos de testes originais, ao mesmo tempo em que mitiga o overfitting e o viés do conjunto de dados. Mais importante ainda, ele enquadra a avaliação do modelo como um processo coletivo de seleção e agregação de testes ao nível da amostra. A transição de benchmarks específicos de tarefa para o ONEBench introduz dois desafios: (1) heterogeneidade e (2) incompletude. A heterogeneidade refere-se à agregação de métricas diversas, enquanto a incompletude descreve a comparação de modelos avaliados em diferentes subconjuntos de dados. Para enfrentar esses desafios, exploramos algoritmos para agregar medidas esparsas em pontuações confiáveis de modelo. Nosso algoritmo de agregação garante identificabilidade (recuperando assintoticamente pontuações reais) e convergência rápida, possibilitando classificações precisas de modelos com menos dados. Em conjuntos de dados homogêneos, mostramos que nosso algoritmo de agregação fornece classificações altamente correlacionadas com aquelas produzidas por pontuações médias. Também demonstramos robustez a ~95% de medidas ausentes, reduzindo o custo de avaliação em até 20 vezes, com pouca ou nenhuma alteração nas classificações de modelos. Apresentamos o ONEBench-LLM para modelos de linguagem e o ONEBench-LMM para modelos de visão e linguagem, unificando avaliações em ambos os domínios. No geral, apresentamos uma técnica de avaliação aberta que pode agregar medidas ao nível da amostra, incompletas e heterogêneas, para expandir continuamente um benchmark junto aos modelos de base em rápida evolução.
O campo acadêmico da navegação visual guiada por instruções de aprendizado pode ser geralmente categorizado em busca específica de categoria de alto nível e navegação guiada por linguagem de baixo nível, dependendo da granularidade da instrução de linguagem, em que o primeiro enfatiza o processo de exploração, enquanto o último se concentra em seguir comandos textuais detalhados. Apesar dos diferentes focos dessas tarefas, os requisitos subjacentes de interpretar instruções, compreender o ambiente e inferir decisões de ação permanecem consistentes. Este artigo consolida diversas tarefas de navegação em um framework unificado e genérico -- investigamos as dificuldades principais de compartilhar conhecimento geral e explorar capacidades específicas da tarefa no aprendizado de navegação e propomos um novo modelo State-Adaptive Mixture of Experts (SAME) que permite efetivamente a um agente inferir decisões com base em instruções de diferentes granularidades e observações dinâmicas. Impulsionado pelo SAME, apresentamos um agente versátil capaz de lidar simultaneamente com sete tarefas de navegação que supera ou alcança desempenho altamente comparável aos agentes específicos da tarefa.
Abordamos o problema da estimativa do alvo do olhar, que visa prever para onde uma pessoa está olhando em uma cena. Prever o alvo do olhar de uma pessoa requer raciocinar tanto sobre a aparência da pessoa quanto sobre o conteúdo da cena. Trabalhos anteriores desenvolveram pipelines cada vez mais complexos e feitos à mão para a estimativa do alvo do olhar, que fundem cuidadosamente características de codificadores de cena separados, codificadores de cabeça e modelos auxiliares para sinais como profundidade e pose. Motivados pelo sucesso de extratores de características de uso geral em uma variedade de tarefas visuais, propomos o Gaze-LLE, um novo framework de transformer que simplifica a estimativa do alvo do olhar aproveitando características de um codificador DINOv2 congelado. Extraímos uma única representação de características para a cena e aplicamos um prompt posicional específico da pessoa para decodificar o olhar com um módulo leve. Demonstramos um desempenho de ponta em vários benchmarks de olhar e fornecemos uma análise extensiva para validar nossas escolhas de design. Nosso código está disponível em: http://github.com/fkryan/gazelle.
Os modelos de Tradução Neural (NMT) são tipicamente treinados em conjuntos de dados com exposição limitada aos domínios Científico, Técnico e Educacional. Os modelos de tradução, portanto, em geral, enfrentam dificuldades com tarefas que envolvem compreensão científica ou jargão técnico. Sua performance é ainda pior para idiomas indianos de baixo recurso. Encontrar um conjunto de dados de tradução que atenda a esses domínios em particular representa um desafio difícil. Neste artigo, abordamos essa questão criando um corpus paralelo multilíngue contendo mais de 2,8 milhões de pares de tradução de alta qualidade do inglês para idiomas indicativos e entre idiomas indicativos, abrangendo 8 idiomas indianos. Conseguimos isso minerando bitextos de transcrições traduzidas por humanos de palestras em vídeo da NPTEL. Também ajustamos e avaliamos modelos NMT usando esse corpus e superamos todos os outros modelos disponíveis publicamente em tarefas dentro do domínio. Demonstramos também o potencial de generalização para tarefas de tradução fora do domínio, melhorando a linha de base em mais de 2 pontos BLEU em média para esses idiomas indianos no benchmark Flores+. Temos o prazer de disponibilizar nosso modelo e conjunto de dados por meio deste link: https://huggingface.co/SPRINGLab.