Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Cambrian-1, uma família de LLMs multimodais (MLLMs) projetados com uma abordagem centrada na visão. Embora modelos de linguagem mais fortes possam aprimorar as capacidades multimodais, as escolhas de design para os componentes de visão frequentemente são insuficientemente exploradas e desconectadas da pesquisa em aprendizado de representação visual. Essa lacuna dificulta o correto enraizamento sensorial em cenários do mundo real. Nosso estudo utiliza LLMs e ajuste de instruções visuais como uma interface para avaliar várias representações visuais, oferecendo novas perspectivas sobre diferentes modelos e arquiteturas -- auto-supervisionados, fortemente supervisionados, ou combinações destes -- com base em experimentos com mais de 20 codificadores de visão. Examinamos criticamente benchmarks existentes de MLLM, abordando as dificuldades envolvidas na consolidação e interpretação de resultados de várias tarefas, e introduzimos um novo benchmark centrado na visão, CV-Bench. Para melhorar ainda mais o enraizamento visual, propomos o Agregador de Visão Espacial (SVA), um conector dinâmico e espacialmente consciente que integra características de visão de alta resolução com LLMs, reduzindo o número de tokens. Além disso, discutimos a curadoria de dados de ajuste de instruções visuais de alta qualidade de fontes disponíveis publicamente, enfatizando a importância do balanceamento da fonte de dados e da proporção de distribuição. Coletivamente, o Cambrian-1 não apenas alcança um desempenho de ponta, mas também serve como um guia abrangente e aberto para MLLMs ajustados por instruções. Fornecemos pesos do modelo, código, ferramentas de suporte, conjuntos de dados e receitas detalhadas de ajuste de instruções e avaliação. Esperamos que nosso lançamento inspire e acelere avanços em sistemas multimodais e aprendizado de representação visual.
A geração de imagens personalizadas tem grande potencial para auxiliar os humanos em seu trabalho e vida cotidiana devido à sua impressionante capacidade de gerar conteúdo personalizado de forma criativa. No entanto, as avaliações atuais são automatizadas, mas não estão alinhadas com os humanos, ou exigem avaliações humanas que são demoradas e dispendiosas. Neste trabalho, apresentamos o DreamBench++, um benchmark alinhado com humanos automatizado por modelos GPT multimodais avançados. Especificamente, projetamos sistematicamente os estímulos para permitir que o GPT seja tanto alinhado com humanos quanto consigo mesmo, potencializado com reforço de tarefas. Além disso, construímos um conjunto de dados abrangente composto por imagens e estímulos diversos. Ao avaliar 7 modelos generativos modernos, demonstramos que o DreamBench++ resulta em avaliações significativamente mais alinhadas com humanos, ajudando a impulsionar a comunidade com descobertas inovadoras.
A engenharia de software automatizada tem sido grandemente potencializada pelos recentes avanços em Modelos de Linguagem de Grande Escala (LLMs) para programação. Enquanto benchmarks atuais têm mostrado que LLMs podem realizar diversas tarefas de engenharia de software como desenvolvedores humanos, a maioria de suas avaliações está limitada a tarefas algorítmicas curtas e autocontidas. Resolver tarefas desafiadoras e práticas de programação requer a capacidade de utilizar chamadas de função diversas como ferramentas para implementar eficientemente funcionalidades como análise de dados e desenvolvimento web. Além disso, usar múltiplas ferramentas para resolver uma tarefa requer raciocínio composicional ao compreender com precisão instruções complexas. Atender a ambas as características pode representar um grande desafio para LLMs. Para avaliar quão bem LLMs podem resolver tarefas desafiadoras e práticas de programação, apresentamos o Bench, um benchmark que desafia LLMs a invocar múltiplas chamadas de função como ferramentas de 139 bibliotecas e 7 domínios para 1.140 tarefas de programação detalhadas. Para avaliar LLMs de forma rigorosa, cada tarefa de programação engloba 5,6 casos de teste com uma cobertura média de ramificação de 99%. Além disso, propomos uma variante orientada à linguagem natural do Bench, Benchi, que transforma automaticamente as docstrings originais em instruções curtas contendo apenas informações essenciais. Nossa extensa avaliação de 60 LLMs mostra que os LLMs ainda não são capazes de seguir instruções complexas para utilizar chamadas de função com precisão, com pontuações de até 60%, significativamente inferiores ao desempenho humano de 97%. Os resultados destacam a necessidade de avanços adicionais nesta área.
Os modelos de recuperação são frequentemente avaliados em conjuntos de dados parcialmente anotados. Cada consulta é mapeada para alguns textos relevantes e assume-se que o restante do corpus é irrelevante. Como resultado, os modelos que recuperam com sucesso falsos negativos são penalizados na avaliação. Infelizmente, anotar completamente todos os textos para cada consulta não é eficiente em termos de recursos. Neste trabalho, demonstramos que o uso de conjuntos de dados parcialmente anotados na avaliação pode distorcer a imagem. Criamos o D-MERIT, um conjunto de avaliação de recuperação de passagens da Wikipedia, aspirando a conter todas as passagens relevantes para cada consulta. As consultas descrevem um grupo (por exemplo, "revistas sobre linguística") e as passagens relevantes são evidências de que as entidades pertencem ao grupo (por exemplo, uma passagem indicando que Linguagem é uma revista sobre linguística). Mostramos que avaliar em um conjunto de dados contendo anotações apenas para um subconjunto das passagens relevantes pode resultar em classificações enganosas dos sistemas de recuperação e que, à medida que mais textos relevantes são incluídos no conjunto de avaliação, as classificações convergem. Propomos nosso conjunto de dados como um recurso para avaliação e nosso estudo como uma recomendação para equilibrar entre eficiência de recursos e avaliação confiável ao anotar conjuntos de avaliação para recuperação de texto.
Sequências de vídeo oferecem informações temporais valiosas, mas os modelos multimodais grandes existentes (LMMs) têm dificuldade em entender vídeos extremamente longos. Muitos trabalhos abordam isso reduzindo o número de tokens visuais usando remuestreadores visuais. Alternativamente, neste artigo, abordamos esse problema a partir da perspectiva do modelo de linguagem. Ao simplesmente extrapolar o comprimento do contexto da espinha dorsal da linguagem, permitimos que os LMMs compreendam ordens de magnitude mais tokens visuais sem nenhum treinamento de vídeo. Chamamos esse fenômeno de transferência de contexto longo e ablatamos cuidadosamente suas propriedades. Para medir efetivamente a capacidade dos LMMs de generalizar para contextos longos na modalidade de visão, desenvolvemos V-NIAH (Visual Needle-In-A-Haystack), um benchmark de visão longa puramente sintético inspirado no teste NIAH do modelo de linguagem. Nosso Assistente de Vídeo Longo (LongVA) proposto pode processar 2000 quadros ou mais de 200 mil tokens visuais sem complexidades adicionais. Com seu comprimento de contexto estendido, o LongVA alcança desempenho de ponta no Video-MME entre modelos de escala 7B amostrando densamente mais quadros de entrada. Nosso trabalho está disponível em código aberto em https://github.com/EvolvingLMMs-Lab/LongVA.
Os modelos de difusão alcançaram recentemente resultados notáveis na geração de vídeos. Apesar das performances encorajadoras, os vídeos gerados geralmente são limitados a um pequeno número de quadros, resultando em clipes com apenas alguns segundos de duração. Os principais desafios em produzir vídeos mais longos incluem os substanciais requisitos de memória e o tempo de processamento estendido necessário em uma única GPU. Uma solução direta seria dividir a carga de trabalho entre várias GPUs, o que, no entanto, acarreta dois problemas: (1) garantir que todas as GPUs se comuniquem efetivamente para compartilhar informações de tempo e contexto, e (2) modificar os modelos de difusão de vídeo existentes, que geralmente são treinados em sequências curtas, para criar vídeos mais longos sem treinamento adicional. Para lidar com esses desafios, neste artigo apresentamos o Video-Infinity, um pipeline de inferência distribuída que permite o processamento paralelo em várias GPUs para a geração de vídeos de longa duração. Especificamente, propomos dois mecanismos coerentes: Paralelismo de Clipes e Atenção de Duplo Escopo. O Paralelismo de Clipes otimiza a coleta e compartilhamento de informações de contexto entre as GPUs, minimizando a sobrecarga de comunicação, enquanto a Atenção de Duplo Escopo modula a autoatenção temporal para equilibrar contextos locais e globais de forma eficiente entre os dispositivos. Juntos, os dois mecanismos se unem para distribuir a carga de trabalho e permitir a geração rápida de vídeos longos. Com uma configuração de 8 x Nvidia 6000 Ada GPU (48G), nosso método gera vídeos de até 2.300 quadros em aproximadamente 5 minutos, possibilitando a geração de vídeos longos a uma velocidade 100 vezes mais rápida do que os métodos anteriores.
Os avanços recentes em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) estenderam suas capacidades para a compreensão de vídeos. No entanto, esses modelos frequentemente sofrem de "alucinações", onde conteúdo irrelevante ou sem sentido é gerado, desviando-se do contexto real do vídeo. Este trabalho apresenta o VideoHallucer, o primeiro benchmark abrangente para detecção de alucinações em grandes modelos de vídeo-linguagem (LVLMs). O VideoHallucer categoriza as alucinações em dois tipos principais: intrínsecas e extrínsecas, oferecendo subcategorias adicionais para análise detalhada, incluindo alucinações de relação objeto, temporais, detalhes semânticos, factuais extrínsecas e alucinações não factuais extrínsecas. Adotamos um método binário adversarial de VideoQA para avaliação abrangente, onde pares de perguntas básicas e alucinadas são elaborados estrategicamente. Ao avaliar onze LVLMs no VideoHallucer, revelamos que i) a maioria dos modelos atuais apresenta problemas significativos com alucinações; ii) enquanto a ampliação de conjuntos de dados e parâmetros melhora a capacidade dos modelos de detectar pistas visuais básicas e contrafactuais, ela oferece benefícios limitados para detectar alucinações factuais extrínsecas; iii) os modelos existentes são mais habilidosos em detectar fatos do que identificar alucinações. Como subproduto, essas análises instruem ainda mais o desenvolvimento de nosso framework self-PEP, alcançando uma melhoria média de 5,38% na resistência à alucinação em todas as arquiteturas de modelo.
O aprendizado por reforço a partir do feedback humano (RLHF) alinha grandes modelos de linguagem (LLMs) incentivando suas gerações a obter altas recompensas, utilizando um modelo de recompensa treinado com base em preferências humanas. Para evitar o esquecimento do conhecimento prévio, o RLHF geralmente incorpora uma regularização KL; isso mantém a política próxima à sua inicialização supervisionada finamente ajustada, embora prejudique a otimização da recompensa. Para lidar com o equilíbrio entre KL e recompensa, neste artigo introduzimos uma nova estratégia de alinhamento chamada Políticas Ponderadas Médias de Recompensa (WARP). O WARP mescla políticas no espaço de pesos em três estágios distintos. Primeiramente, utiliza a média móvel exponencial da política como âncora dinâmica na regularização KL. Em segundo lugar, aplica interpolação esférica para mesclar políticas finamente ajustadas de forma independente em uma nova política aprimorada. Em terceiro lugar, interpola linearmente entre esse modelo mesclado e a inicialização, para recuperar características do pré-treinamento. Esse procedimento é então aplicado de forma iterativa, sendo o modelo final de cada iteração utilizado como uma inicialização avançada para a próxima, refinando progressivamente a fronteira de Pareto KL-recompensa, alcançando recompensas superiores com KL fixo. Experimentos com políticas GEMMA validam que o WARP melhora sua qualidade e alinhamento, superando outros LLMs de código aberto.
O interesse em modelos de complexidade linear para grandes modelos de linguagem está em ascensão, embora sua capacidade de escalabilidade permaneça incerta. Neste estudo, apresentamos as leis de escalabilidade para modelos de linguagem de complexidade linear para estabelecer uma base para sua escalabilidade. Especificamente, examinamos os comportamentos de escalonamento de três arquiteturas lineares eficientes. Estas incluem TNL, um modelo de atenção linear com decaimento independente de dados; HGRN2, um RNN linear com decaimento dependente de dados; e cosFormer2, um modelo de atenção linear sem decaimento. Também incluímos o LLaMA como uma arquitetura de referência para atenção softmax para comparação. Esses modelos foram treinados com seis variantes, variando de 70M a 7B de parâmetros em um corpus de 300B tokens, e avaliados com um total de 1.376 pontos de verificação intermediários em várias tarefas secundárias. Essas tarefas incluem perda de validação, raciocínio de senso comum e recuperação e geração de informações. O estudo revela que os modelos de linguagem de complexidade linear existentes exibem capacidades de escalonamento semelhantes aos modelos baseados em transformadores convencionais, demonstrando também proficiência linguística superior e retenção de conhecimento.
Grandes modelos de linguagem (LLMs) revolucionaram o processamento de linguagem natural e ampliaram sua aplicabilidade em diversas aplicações comerciais. No entanto, a implementação desses modelos é limitada pelo alto tempo de inferência em ambientes multilíngues. Para mitigar esse desafio, este artigo explora uma receita de treinamento de um modelo assistente em decodificação especulativa, que é aproveitada para elaborar rascunhos e, em seguida, seus tokens futuros são verificados pelo LLM alvo. Mostramos que modelos de rascunho específicos de linguagem, otimizados por meio de uma estratégia de pré-treino e ajuste direcionado, trazem substancial aceleração no tempo de inferência em comparação com os métodos anteriores. Validamos esses modelos em diversos idiomas em relação ao tempo de inferência, aceleração fora do domínio e avaliação do GPT-4o.
O pré-treinamento contínuo tornou-se cada vez mais a abordagem predominante para adaptar Modelos de Linguagem de Grande Escala (LLMs) a novos domínios. Esse processo envolve atualizar o LLM pré-treinado com um corpus de um novo domínio, resultando em uma mudança na distribuição de treinamento. Para estudar o comportamento dos LLMs durante essa mudança, medimos o desempenho do modelo ao longo do processo de pré-treinamento contínuo. Observamos uma queda temporária no desempenho no início, seguida por uma fase de recuperação, um fenômeno conhecido como "lacuna de estabilidade", anteriormente observado em modelos de visão que classificam novas classes. Para lidar com esse problema e melhorar o desempenho do LLM dentro de um orçamento computacional fixo, propomos três estratégias eficazes: (1) Pré-treinar continuamente o LLM em um subconjunto com um tamanho apropriado por várias épocas, resultando em uma recuperação de desempenho mais rápida do que pré-treinar o LLM em um corpus grande em uma única época; (2) Pré-treinar o LLM apenas em um sub-corpus de alta qualidade, o que impulsiona rapidamente o desempenho no domínio; e (3) Usar uma mistura de dados semelhante aos dados de pré-treinamento para reduzir a diferença de distribuição. Realizamos vários experimentos em modelos da família Llama para validar a eficácia de nossas estratégias tanto no pré-treinamento contínuo médico quanto na afinação de instruções. Por exemplo, nossas estratégias melhoram o desempenho médio da tarefa médica do modelo OpenLlama-3B de 36,2% para 40,7% com apenas 40% do orçamento de treinamento original e aprimoram o desempenho médio da tarefa geral sem causar esquecimento. Além disso, aplicamos nossas estratégias ao modelo Llama-3-8B. O modelo resultante, Llama-3-Physician, alcança o melhor desempenho médico entre os modelos de código aberto atuais e se sai de forma comparável ou até melhor do que o GPT-4 em vários benchmarks médicos. Lançamos nossos modelos em https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.
Acomodar sequências longas de forma eficiente em Transformadores autoregressivos, especialmente dentro de uma janela de contexto estendida, apresenta desafios significativos devido à complexidade computacional quadrática e aos substanciais requisitos de memória KV inerentes aos mecanismos de autoatenção. Neste trabalho, introduzimos a Atenção SPARSEK, um novo mecanismo de atenção esparsa projetado para superar esses obstáculos computacionais e de memória, mantendo o desempenho. Nossa abordagem integra uma rede de pontuação e um operador de máscara top-k diferenciável, SPARSEK, para selecionar um número constante de pares KV para cada consulta, permitindo assim a otimização baseada em gradientes. Como resultado, a Atenção SPARSEK oferece complexidade de tempo linear e pegada de memória constante durante a geração. Resultados experimentais revelam que a Atenção SPARSEK supera os métodos de atenção esparsa anteriores e proporciona melhorias significativas de velocidade tanto durante o treinamento quanto na inferência, especialmente em modelagem de linguagem e tarefas subsequentes. Além disso, nosso método pode ser integrado de forma transparente em Modelos de Linguagem Grandes (LLMs) pré-treinados com ajustes mínimos, oferecendo uma solução prática para gerenciar efetivamente dependências de longo alcance em diversas aplicações.
Propomos sondas de entropia semântica (SEPs), um método barato e confiável para quantificação de incerteza em Modelos de Linguagem Grandes (LLMs). As alucinações, que são gerações de modelos plausíveis, mas factualmente incorretas e arbitrárias, representam um grande desafio para a adoção prática de LLMs. Um trabalho recente de Farquhar et al. (2024) propõe a entropia semântica (SE), que pode detectar alucinações estimando a incerteza no espaço de significado semântico para um conjunto de gerações do modelo. No entanto, o aumento de 5 a 10 vezes no custo computacional associado à computação de SE dificulta a adoção prática. Para lidar com isso, propomos SEPs, que aproximam diretamente SE a partir dos estados ocultos de uma única geração. As SEPs são simples de treinar e não exigem a amostragem de múltiplas gerações do modelo no momento do teste, reduzindo a sobrecarga da quantificação de incerteza semântica quase a zero. Mostramos que as SEPs mantêm alto desempenho na detecção de alucinações e generalizam melhor para dados fora da distribuição do que métodos de sondagem anteriores que preveem diretamente a precisão do modelo. Nossos resultados em diversos modelos e tarefas sugerem que os estados ocultos do modelo capturam a SE, e nossos estudos de ablação fornecem mais insights sobre as posições dos tokens e camadas do modelo para as quais isso é válido.
À medida que os grandes modelos de linguagem (LLMs) permeiam cada vez mais a vida diária, há uma crescente demanda por interações em tempo real que imitem conversas humanas. Sistemas de chat tradicionais baseados em turnos e impulsionados por LLMs impedem os usuários de interagir verbalmente com o sistema enquanto ele gera respostas. Para superar essas limitações, adaptamos os LLMs existentes para modelos duplex, de modo que esses LLMs possam ouvir os usuários enquanto geram saídas e se ajustar dinamicamente para fornecer feedback instantâneo aos usuários, como em resposta a interrupções. Especificamente, dividimos as consultas e respostas das conversas em várias fatias de tempo e depois adotamos uma estratégia de codificação-decodificação de multiplexação por divisão de tempo (TDM) para processar pseudo-simultaneamente essas fatias. Além disso, para tornar os LLMs proficientes o suficiente para lidar com conversas em tempo real, construímos um conjunto de dados de ajuste fino consistindo de fatias de tempo alternadas de consultas e respostas, cobrindo também tipos típicos de feedback em interações instantâneas. Nossos experimentos mostram que, embora as consultas e respostas das conversas sejam segmentadas em fatias incompletas para processamento, os LLMs podem preservar seu desempenho original em benchmarks padrão com algumas etapas de ajuste fino em nosso conjunto de dados. Avaliações automátas e humanas indicam que os modelos duplex tornam as interações usuário-AI mais naturais e humanas, e melhoram significativamente a satisfação do usuário em comparação com os LLMs convencionais. Nosso modelo e conjunto de dados duplex serão disponibilizados.
A desintoxicação de Modelos de Linguagem Grandes (LLMs) multilíngues tornou-se crucial devido ao aumento de seu uso global. Neste trabalho, exploramos a generalização cruzada zero-shot do ajuste de preferência na desintoxicação de LLMs. Ao contrário de estudos anteriores que mostram uma generalização cruzada limitada para outras tarefas de segurança, demonstramos que o treinamento com Otimização Direta de Preferência (DPO) usando apenas dados em inglês pode reduzir significativamente a toxicidade em gerações multilíngues abertas. Por exemplo, a probabilidade de o mGPT-1.3B gerar continuações tóxicas cai de 46,8% para 3,9% em 17 idiomas diferentes após o treinamento. Nossos resultados também se estendem a outros LLMs multilíngues, como BLOOM, Llama3 e Aya-23. Usando ferramentas de interpretabilidade mecanicista como intervenção causal e análise de ativação, identificamos a propriedade dual de multilinguismo das camadas MLP em LLMs, o que explica a generalização cruzada do DPO. Por fim, mostramos que a recuperação de frases bilíngues pode prever a transferibilidade cruzada do ajuste de preferência DPO.
Embora os Modelos de Linguagem Grandes (LLMs) estejam se tornando cada vez mais poderosos, ainda apresentam fraquezas significativas, porém sutis, como erros em tarefas de seguir instruções ou codificação. Como esses erros inesperados podem levar a consequências graves em implantações práticas, é crucial investigar sistematicamente as limitações dentro dos LLMs. Abordagens tradicionais de benchmarking não conseguem identificar completamente deficiências específicas do modelo, enquanto inspeções manuais são caras e não escaláveis. Neste artigo, introduzimos um framework unificado, AutoDetect, para expor automaticamente as fraquezas nos LLMs em várias tarefas. Inspirado no processo de avaliação educacional que mede os resultados de aprendizagem dos alunos, o AutoDetect é composto por três agentes alimentados por LLMs: Examinador, Questionador e Avaliador. A colaboração entre esses três agentes é projetada para realizar uma identificação abrangente e aprofundada de fraquezas. Nosso framework demonstra um sucesso significativo em descobrir falhas, com uma taxa de sucesso de identificação superior a 30% em modelos proeminentes como ChatGPT e Claude. Mais importante ainda, essas fraquezas identificadas podem orientar melhorias específicas no modelo, provando ser mais eficazes do que métodos de aumento de dados não direcionados como o Self-Instruct. Nossa abordagem resultou em melhorias substanciais em LLMs populares, incluindo a série Llama e Mistral-7b, aumentando seu desempenho em mais de 10% em vários benchmarks. O código e os dados estão disponíveis publicamente em https://github.com/thu-coai/AutoDetect.
Apesar de seu uso generalizado, os mecanismos pelos quais os grandes modelos de linguagem (LLMs) representam e regulam a incerteza nas previsões do próximo token permanecem amplamente inexplorados. Este estudo investiga dois componentes críticos acreditados influenciar essa incerteza: os neurônios de entropia recentemente descobertos e um novo conjunto de componentes que denominamos neurônios de frequência de token. Os neurônios de entropia são caracterizados por uma norma de peso incomumente alta e influenciam a escala de normalização da camada final (LayerNorm) para dimensionar efetivamente os logits para baixo. Nosso trabalho mostra que os neurônios de entropia operam escrevendo em um espaço nulo de desassociação, permitindo que impactem a norma do fluxo residual com um efeito direto mínimo nos próprios logits. Observamos a presença de neurônios de entropia em uma variedade de modelos, até 7 bilhões de parâmetros. Por outro lado, os neurônios de frequência de token, que descobrimos e descrevemos aqui pela primeira vez, aumentam ou suprimem proporcionalmente o logit de cada token de acordo com sua frequência de log, deslocando assim a distribuição de saída para mais perto ou mais longe da distribuição unigram. Por fim, apresentamos um estudo de caso detalhado em que os neurônios de entropia gerenciam ativamente a confiança no cenário de indução, ou seja, detectando e continuando subsequências repetidas.
O que torna um bom Modelo de Linguagem Grande (LLM)? Que ele se saia bem nos benchmarks relevantes - que esperançosamente medem, com alguma validade, a presença de capacidades que também são desafiadas em aplicações reais. Mas o que faz o modelo se sair bem? O que dá ao modelo suas habilidades? Nós consideramos um tipo de benchmark recentemente introduzido que visa desafiar capacidades em um contexto direcionado a objetivos, agentivo, por meio de autojogo de jogos conversacionais, e analisamos como o desempenho se desenvolve em função de características do modelo como número de parâmetros ou tipo de treinamento. Descobrimos que, embora exista uma relação clara entre o número de parâmetros e o desempenho, ainda há uma ampla gama de pontos de desempenho dentro de um determinado intervalo de tamanho, que deve ser considerada pelos parâmetros de treinamento, como qualidade dos dados de ajuste fino e método. De um ângulo mais prático, também encontramos um certo grau de imprevisibilidade sobre o desempenho entre os métodos de acesso, possivelmente devido a parâmetros de amostragem não expostos, e uma, muito bem-vinda, estabilidade de desempenho contra pelo menos uma quantização moderada de peso durante a inferência.
A síntese de vestuário 3D de alta fidelidade a partir de texto é desejável, porém desafiadora para a criação de avatares digitais. Abordagens recentes baseadas em difusão por meio de Amostragem de Destilação de Pontuação (SDS) têm possibilitado novas possibilidades, mas geralmente se acoplam de forma intrincada ao corpo humano ou têm dificuldades de reutilização. Apresentamos o ClotheDreamer, um método 3D baseado em Gaussianas para gerar ativos de vestuário 3D prontos para produção a partir de instruções de texto. Propomos uma representação inovadora, chamada Disentangled Clothe Gaussian Splatting (DCGS), para permitir otimização separada. O DCGS representa o avatar vestido como um modelo gaussiano único, porém congela os splats gaussianos do corpo. Para aprimorar a qualidade e completude, incorporamos SDS bidirecional para supervisionar o avatar vestido e as renderizações RGBD do vestuário, respectivamente, com condições de pose, e propomos uma nova estratégia de poda para roupas folgadas. Nosso método também pode suportar modelos de roupas personalizadas como entrada. Graças ao nosso design, o vestuário 3D sintético pode ser facilmente aplicado em provas virtuais e suportar animações fisicamente precisas. Experimentos extensivos demonstram a performance superior e competitiva de nosso método. A página do nosso projeto está em https://ggxxii.github.io/clothedreamer.
Grandes modelos de linguagem (LLMs), mesmo quando especificamente treinados para processar contextos de entrada longos, têm dificuldade em capturar informações relevantes localizadas no meio de sua entrada. Esse fenômeno é conhecido como o problema do perdido-no-meio. Neste trabalho, fazemos três contribuições. Primeiramente, buscamos compreender os fatores que causam esse fenômeno. Ao fazê-lo, estabelecemos uma conexão entre perdido-no-meio e o viés de atenção intrínseco dos LLMs: os LLMs exibem um viés de atenção em forma de U, onde os tokens no início e no final de sua entrada recebem mais atenção, independentemente de sua relevância. Em segundo lugar, mitigamos esse viés posicional por meio de um mecanismo de calibração, encontrado-no-meio, que permite ao modelo atender aos contextos fielmente de acordo com sua relevância, mesmo quando estão no meio. Em terceiro lugar, mostramos que encontrado-no-meio não apenas alcança melhor desempenho na localização de informações relevantes dentro de um contexto longo, mas também leva eventualmente a um melhor desempenho de geração aumentada por recuperação (RAG) em várias tarefas, superando métodos existentes em até 15 pontos percentuais. Essas descobertas abrem futuras direções na compreensão do viés de atenção dos LLMs e suas potenciais consequências.
A aprendizagem de robôs escalável no mundo real é limitada pelo custo e questões de segurança dos robôs reais. Além disso, implementar trajetórias de robôs no mundo real pode ser demorado e exigir muito trabalho. Neste artigo, propomos aprender um simulador de ação de robô real interativo como alternativa. Apresentamos um método inovador, IRASim, que aproveita o poder de modelos generativos para gerar vídeos extremamente realistas de um braço de robô executando uma trajetória de ação dada, a partir de um quadro inicial fornecido. Para validar a eficácia do nosso método, criamos um novo benchmark, IRASim Benchmark, com base em três conjuntos de dados de robôs reais e realizamos experimentos extensivos no benchmark. Os resultados mostram que o IRASim supera todos os métodos de referência e é mais preferível em avaliações humanas. Esperamos que o IRASim possa servir como uma abordagem eficaz e escalável para aprimorar a aprendizagem de robôs no mundo real. Para promover a pesquisa em simuladores de ação de robô real generativos, disponibilizamos o código, benchmark e checkpoints em código aberto em https://gen-irasim.github.io.
A compreensão da fala como um elemento da compreensão de vídeo mais genérica usando modelos de linguagem audiovisuais grandes (av-LLMs) é um aspecto crucial, porém pouco estudado. Este artigo propõe o video-SALMONN, um único av-LLM de ponta a ponta para processamento de vídeo, que pode compreender não apenas sequências de quadros visuais, eventos de áudio e música, mas também a fala. Para obter informações temporais detalhadas necessárias para a compreensão da fala, mantendo-se eficiente para outros elementos de vídeo, este artigo propõe uma estrutura inovadora de Q-Former causal de múltiplas resoluções (MRC Q-Former) para conectar codificadores audiovisuais pré-treinados e o modelo de linguagem grande principal. Além disso, abordagens de treinamento dedicadas, incluindo a perda de diversidade e o esquema de treinamento misto audiovisual não pareado, são propostas para evitar a dominância de quadros ou modalidades. No benchmark de avaliação audiovisual de fala introduzido, o video-SALMONN alcança mais de 25% de melhorias absolutas de precisão na tarefa de perguntas e respostas em vídeo e mais de 30% de melhorias absolutas de precisão nas tarefas de perguntas e respostas audiovisuais com fala humana. Além disso, o video-SALMONN demonstra notáveis habilidades de compreensão e raciocínio de vídeo em tarefas sem precedentes por outros av-LLMs. Nosso código de treinamento e checkpoints do modelo estão disponíveis em \url{https://github.com/bytedance/SALMONN/}.
Apesar dos avanços recentes em Modelos de Linguagem de Grande Escala (LLMs), seu desempenho em tarefas envolvendo contextos longos permanece subótimo. A Aprendizagem em Contexto (ICL) com exemplos de poucas amostras pode ser uma solução atraente para aprimorar o desempenho do LLM nesse cenário; No entanto, adicionar exemplos de ICL com contexto longo de forma ingênua apresenta desafios, incluindo uma sobrecarga substancial de tokens adicionada para cada exemplo de poucas amostras e uma discrepância de contexto entre as demonstrações e a consulta alvo. Neste trabalho, propomos gerar automaticamente exemplos de poucas amostras para tarefas de QA com contexto longo por meio da reciclagem de contextos. Especificamente, dado um contexto de entrada longo (1-3k tokens) e uma consulta, geramos pares adicionais de consulta-resposta a partir do contexto fornecido como exemplos de poucas amostras, introduzindo o contexto apenas uma vez. Isso garante que as demonstrações estejam aproveitando o mesmo contexto da consulta alvo, adicionando apenas um pequeno número de tokens ao prompt. Aprimoramos ainda mais cada demonstração instruindo o modelo a identificar explicitamente os parágrafos relevantes antes da resposta, o que melhora o desempenho ao fornecer uma atribuição detalhada à fonte da resposta. Aplicamos nosso método em vários LLMs e obtivemos melhorias substanciais (+23\% em média entre os modelos) em diversos conjuntos de dados de QA com contexto longo, especialmente quando a resposta está no meio do contexto. Surpreendentemente, apesar de introduzir apenas exemplos de ICL de salto único, os LLMs também generalizam com sucesso para QA de contexto longo de múltiplos saltos usando nossa abordagem.
A amostragem de destilação de escore tem sido fundamental para integrar modelos de difusão na geração de visuais complexos. Apesar dos resultados impressionantes, ela sofre de colapso de modo e falta de diversidade. Para lidar com esse desafio, aproveitamos a interpretação do fluxo de gradiente da destilação de escore para propor a Destilação de Escore Repulsivo (RSD). Em particular, propomos um framework variacional baseado na repulsão de um conjunto de partículas que promove a diversidade. Utilizando uma aproximação variacional que incorpora um acoplamento entre as partículas, a repulsão aparece como uma regularização simples que permite a interação das partículas com base em sua similaridade relativa par a par, medida, por exemplo, via núcleos de base radial. Projetamos o RSD tanto para cenários de amostragem irrestrita quanto restrita. Para a amostragem restrita, focamos em problemas inversos no espaço latente que levam a uma formulação variacional aumentada, que alcança um bom equilíbrio entre computação, qualidade e diversidade. Nossos extensos experimentos para geração de texto para imagem e problemas inversos demonstram que o RSD alcança um trade-off superior entre diversidade e qualidade em comparação com alternativas de ponta.
Neste relatório, colocamos a seguinte questão: Quem é o modelo de IA mais inteligente até o momento, conforme medido pela OlympicArena (um benchmark de nível olímpico, multidisciplinar e multimodal para IA superinteligente)? Especificamente, focamos nos modelos mais recentemente lançados: Claude-3.5-Sonnet, Gemini-1.5-Pro e GPT-4o. Pela primeira vez, propomos usar uma abordagem de Tabela de Medalhas Olímpicas para classificar os modelos de IA com base em seu desempenho abrangente em várias disciplinas. Resultados empíricos revelam: (1) Claude-3.5-Sonnet mostra um desempenho geral altamente competitivo em relação ao GPT-4o, superando até mesmo o GPT-4o em algumas disciplinas (ou seja, Física, Química e Biologia). (2) Gemini-1.5-Pro e GPT-4V são classificados consecutivamente logo atrás do GPT-4o e do Claude-3.5-Sonnet, mas com uma clara diferença de desempenho entre eles. (3) O desempenho dos modelos de IA da comunidade de código aberto fica significativamente atrás desses modelos proprietários. (4) O desempenho desses modelos neste benchmark tem sido menos do que satisfatório, indicando que ainda temos um longo caminho a percorrer antes de alcançar a superinteligência. Permanecemos comprometidos em acompanhar e avaliar continuamente o desempenho dos últimos modelos poderosos neste benchmark (disponível em https://github.com/GAIR-NLP/OlympicArena).