Artigos de pesquisa em IA selecionados diariamente com traduções
O planeamento com observação parcial é um desafio central na IA incorporada. A maioria dos trabalhos anteriores abordou esse desafio desenvolvendo agentes que exploram fisicamente seu ambiente para atualizar suas crenças sobre o estado do mundo. Em contraste, os humanos podem imaginar partes não vistas do mundo através de uma exploração mental e revisar suas crenças com observações imaginadas. Tais crenças atualizadas podem permitir que tomem decisões mais informadas, sem necessidade de explorar fisicamente o mundo o tempo todo. Para alcançar essa habilidade semelhante à humana, introduzimos o Explorador de Mundo Generativo (Genex), um framework de exploração de mundo egocêntrico que permite a um agente explorar mentalmente um mundo 3D em grande escala (por exemplo, cenas urbanas) e adquirir observações imaginadas para atualizar sua crença. Essa crença atualizada ajudará então o agente a tomar uma decisão mais informada no passo atual. Para treinar o Genex, criamos um conjunto de dados sintético de cenas urbanas, Genex-DB. Nossos resultados experimentais demonstram que (1) o Genex pode gerar observações de alta qualidade e consistentes durante a exploração de longo prazo de um mundo físico virtual em grande escala e (2) as crenças atualizadas com as observações geradas podem informar um modelo de tomada de decisão existente (por exemplo, um agente LLM) para fazer planos melhores.
O surgimento e a crescente popularidade dos modelos de linguagem multimodais de grande escala (MLLMs) têm um potencial significativo para aprimorar vários aspectos da vida diária, desde a melhoria da comunicação até a facilitação da aprendizagem e resolução de problemas. Os telefones celulares, como companheiros diários essenciais, representam a plataforma de implantação mais eficaz e acessível para MLLMs, possibilitando a integração perfeita em tarefas cotidianas. No entanto, a implantação de MLLMs em telefones celulares apresenta desafios devido às limitações no tamanho da memória e na capacidade computacional, tornando difícil alcançar um processamento suave e em tempo real sem uma extensa otimização. Neste artigo, apresentamos o BlueLM-V-3B, uma abordagem de co-design de algoritmo e sistema especificamente adaptada para a implantação eficiente de MLLMs em plataformas móveis. Especificamente, redesenhamos o esquema de resolução dinâmica adotado pelos MLLMs convencionais e implementamos otimização de sistema para a implantação consciente de hardware, a fim de otimizar a inferência do modelo em telefones celulares. O BlueLM-V-3B apresenta os seguintes destaques principais: (1) Tamanho Pequeno: o BlueLM-V-3B possui um modelo de linguagem com 2,7 bilhões de parâmetros e um codificador de visão com 400 milhões de parâmetros. (2) Velocidade Rápida: o BlueLM-V-3B alcança uma velocidade de geração de 24,4 tokens/s no processador MediaTek Dimensity 9300 com quantização de peso LLM de 4 bits. (3) Desempenho Robusto: o BlueLM-V-3B obteve a maior pontuação média de 66,1 no benchmark OpenCompass entre os modelos com menos ou igual a 4 bilhões de parâmetros e superou uma série de modelos com tamanhos de parâmetros muito maiores (por exemplo, MiniCPM-V-2.6, InternVL2-8B).
Apresentamos uma abordagem unificada de geração de vídeo controlável, AnimateAnything, que facilita a manipulação precisa e consistente de vídeos em várias condições, incluindo trajetórias de câmera, prompts de texto e anotações de movimento do usuário. Especificamente, projetamos cuidadosamente uma rede de fusão de características de controle em múltiplas escalas para construir uma representação de movimento comum para diferentes condições. Ela converte explicitamente todas as informações de controle em fluxos ópticos quadro a quadro. Em seguida, incorporamos os fluxos ópticos como priores de movimento para orientar a geração final do vídeo. Além disso, para reduzir os problemas de cintilação causados por movimentos em grande escala, propomos um módulo de estabilização baseado em frequência. Ele pode melhorar a coerência temporal garantindo a consistência no domínio de frequência do vídeo. Experimentos demonstram que nosso método supera as abordagens de ponta. Para mais detalhes e vídeos, consulte a página da web: https://yu-shaonian.github.io/Animate_Anything/.
A evolução do aprendizado de máquina tem priorizado cada vez mais o desenvolvimento de modelos poderosos e sinais de supervisão mais escaláveis. No entanto, o surgimento de modelos fundamentais apresenta desafios significativos na disponibilização de sinais de supervisão eficazes necessários para aprimorar ainda mais suas capacidades. Consequentemente, há uma necessidade urgente de explorar sinais de supervisão e abordagens técnicas inovadoras. Neste artigo, propomos a engenharia de verificadores, um novo paradigma pós-treinamento especificamente projetado para a era dos modelos fundamentais. O cerne da engenharia de verificadores envolve alavancar um conjunto de verificadores automatizados para realizar tarefas de verificação e fornecer feedback significativo aos modelos fundamentais. Categorizamos sistematicamente o processo de engenharia de verificadores em três estágios essenciais: busca, verificação e feedback, e fornecemos uma revisão abrangente dos desenvolvimentos de pesquisa de ponta dentro de cada estágio. Acreditamos que a engenharia de verificadores constitui um caminho fundamental para alcançar a Inteligência Artificial Geral.
Os modelos de linguagem grandes (LLMs) normalmente utilizam decodificação gulosa ou amostragem de baixa temperatura para tarefas de raciocínio, refletindo um suposto equilíbrio entre diversidade e precisão. Desafiamos essa convenção ao introduzir o top-nsigma, um novo método de amostragem que opera diretamente nos logitos pré-softmax, aproveitando um limiar estatístico. Nossa principal percepção é que os logitos naturalmente se separam em uma região ruidosa distribuída de forma gaussiana e uma região informativa distinta, permitindo a filtragem eficiente de tokens sem manipulações complexas de probabilidade. Ao contrário de métodos existentes (por exemplo, top-p, min-p) que incluem inadvertidamente mais tokens de ruído em temperaturas mais altas, o top-nsigma mantém um espaço de amostragem estável independentemente da escala de temperatura. Também fornecemos uma análise teórica do top-nsigma para melhor compreender seu comportamento. Os extensos resultados experimentais em quatro conjuntos de dados focados em raciocínio demonstram que nosso método não apenas supera abordagens de amostragem existentes, mas também ultrapassa a decodificação gulosa, mantendo um desempenho consistente mesmo em altas temperaturas.
Os reclassificadores, geralmente os codificadores cruzados, são frequentemente usados para reavaliar os documentos recuperados por sistemas de RI inicial mais baratos. Isso ocorre porque, embora caros, presume-se que os reclassificadores sejam mais eficazes. Desafiamos essa suposição ao medir o desempenho do reclassificador para a recuperação completa, não apenas para reavaliar a recuperação da primeira etapa. Nossos experimentos revelam uma tendência surpreendente: os melhores reclassificadores existentes fornecem retornos decrescentes ao pontuar progressivamente mais documentos e, na verdade, degradam a qualidade além de um certo limite. Na verdade, nesse cenário, os reclassificadores frequentemente podem atribuir pontuações altas a documentos sem sobreposição lexical ou semântica com a consulta. Esperamos que nossas descobertas estimulem pesquisas futuras para melhorar o reclassificação.
Embora a prova virtual baseada em imagens tenha avançado consideravelmente, abordagens emergentes ainda enfrentam desafios na produção de imagens de ajuste de alta fidelidade e robustas em diversos cenários. Esses métodos frequentemente enfrentam problemas como manutenção consciente de textura e ajuste consciente de tamanho, que prejudicam sua eficácia geral. Para lidar com essas limitações, propomos uma nova técnica de aprimoramento de percepção de vestuário, denominada FitDiT, projetada para prova virtual de alta fidelidade usando Transformadores de Difusão (DiT) alocando mais parâmetros e atenção a características de alta resolução. Primeiramente, para melhorar ainda mais a manutenção consciente de textura, introduzimos um extrator de textura de vestuário que incorpora evolução de prioridades de vestuário para ajustar finamente a característica do vestuário, facilitando a captura de detalhes ricos como listras, padrões e texto. Além disso, introduzimos aprendizado de domínio de frequência personalizando uma perda de distância de frequência para aprimorar detalhes de vestuário de alta frequência. Para lidar com a questão do ajuste consciente de tamanho, empregamos uma estratégia de máscara dilatada-relaxada que se adapta ao comprimento correto do vestuário, impedindo a geração de vestuários que preencham toda a área da máscara durante a prova entre categorias. Equipado com o design acima, o FitDiT supera todos os baselines em avaliações qualitativas e quantitativas. Ele se destaca na produção de vestuários bem ajustados com detalhes fotorrealistas e intrincados, ao mesmo tempo que alcança tempos de inferência competitivos de 4,57 segundos para uma única imagem de 1024x768 após o enxugamento da estrutura DiT, superando os métodos existentes.
Embora os modelos de linguagem pequenos (SLMs) mostrem promessas para implantação em dispositivos móveis, seu desempenho e aplicações do mundo real em smartphones ainda são pouco explorados. Apresentamos o SlimLM, uma série de SLMs otimizados para tarefas de assistência de documentos em dispositivos móveis. Através de experimentos extensivos em um Samsung Galaxy S24, identificamos os trade-offs ótimos entre o tamanho do modelo (variando de 125M a 7B parâmetros), comprimento do contexto e tempo de inferência para processamento eficiente no dispositivo. O SlimLM é pré-treinado no SlimPajama-627B e ajustado no DocAssist, nosso conjunto de dados construído para tarefas de sumarização, resposta a perguntas e sugestões. Nosso menor modelo demonstra desempenho eficiente no S24, enquanto variantes maiores oferecem capacidades aprimoradas dentro das restrições móveis. Avaliamos o SlimLM em comparação com SLMs existentes, mostrando desempenho comparável ou superior e oferecendo um referencial para pesquisas futuras em modelos de linguagem em dispositivos. Também fornecemos um aplicativo Android, oferecendo insights práticos sobre a implantação de SLMs. Nossas descobertas fornecem insights valiosos e iluminam as capacidades de executar modelos de linguagem avançados em smartphones de alta qualidade, potencialmente reduzindo custos de servidor e aprimorando a privacidade através do processamento no dispositivo.
Os avanços recentes da IA generativa têm promovido significativamente a criação e edição de conteúdo, onde estudos predominantes estendem ainda mais esse progresso empolgante para a edição de vídeos. Ao fazer isso, esses estudos transferem principalmente os padrões de movimento inerentes dos vídeos de origem para os editados, nos quais resultados com consistência inferior em relação às instruções do usuário são frequentemente observados, devido à falta de alinhamentos específicos entre os movimentos entregues e os conteúdos editados. Para abordar essa limitação, apresentamos neste artigo um método de edição de vídeo com consistência de forma, denominado StableV2V. Nosso método decompõe todo o pipeline de edição em vários procedimentos sequenciais, onde ele edita o primeiro quadro do vídeo, estabelece um alinhamento entre os movimentos entregues e as instruções do usuário, e eventualmente propaga os conteúdos editados para todos os outros quadros com base nesse alinhamento. Além disso, criamos um benchmark de teste, denominado DAVIS-Edit, para uma avaliação abrangente da edição de vídeo, considerando vários tipos de instruções e dificuldades. Resultados experimentais e análises ilustram o desempenho superior, consistência visual e eficiência de inferência de nosso método em comparação com estudos existentes de última geração.
À medida que a pesquisa sobre Modelos de Linguagem Multimodais de Grande Escala (MLLMs) se torna popular, um modelo MLLM avançado é tipicamente necessário para lidar simultaneamente com várias tarefas textuais e visuais (por exemplo, VQA, Detecção, OCR e ChartQA) para aplicações do mundo real. No entanto, devido às diferenças significativas na representação e distribuição dos dados provenientes de diversas tarefas, simplesmente misturar os dados de todas as tarefas resulta no conhecido problema de "conflito de múltiplas tarefas", resultando em degradação de desempenho em várias tarefas. Para lidar com esse problema, propomos o Awaker2.5-VL, uma arquitetura Mixture of Experts (MoE) adequada para MLLM, que adquire as capacidades multi-tarefa por meio de múltiplos especialistas ativados de forma esparsa. Para acelerar o treinamento e inferência do Awaker2.5-VL, cada especialista em nosso modelo é projetado como uma estrutura de adaptação de baixa classificação (LoRA). Experimentos extensivos em diversos benchmarks recentes demonstram a eficácia do Awaker2.5-VL. O código e os pesos do modelo estão disponíveis em nossa Página do Projeto: https://github.com/MetabrainAGI/Awaker.
Durante a decodificação do modelo de linguagem, é sabido que o uso de uma temperatura mais elevada de amostragem resulta em respostas mais criativas, enquanto temperaturas mais baixas são mais precisas factualmente. No entanto, tais modelos são comumente aplicados ao seguimento de instruções gerais, que envolvem tarefas tanto criativas quanto de busca por fatos, utilizando uma temperatura fixa única em todos os exemplos e tokens. Neste trabalho, introduzimos a Decodificação Adaptativa, uma camada adicionada ao modelo para selecionar dinamicamente a temperatura de amostragem no momento da inferência, seja no nível do token ou do exemplo, a fim de otimizar o desempenho. Para aprender seus parâmetros, introduzimos a Otimização de Preferência Latente (LPO), uma abordagem geral para treinar variáveis latentes discretas, como escolhas de temperatura. Nosso método supera todas as temperaturas de decodificação fixas em uma variedade de tarefas que requerem diferentes temperaturas, incluindo UltraFeedback, Escrita de Histórias Criativas e GSM8K.
Criamos dois modelos de decodificador exclusivamente em alemão, LL\"aMmlein 120M e 1B, de forma transparente a partir do zero e os publicamos, juntamente com os dados de treinamento, para a comunidade de pesquisa em PNL em alemão usar. O treinamento do modelo envolveu várias etapas-chave, incluindo extensa pré-processamento de dados, a criação de um tokenizador personalizado em alemão, o próprio treinamento, bem como a avaliação dos modelos finais em vários benchmarks. Ao longo do processo de treinamento, vários pontos de verificação foram salvos e analisados usando o benchmark SuperGLEBer para monitorar a dinâmica de aprendizado dos modelos. Em comparação com os modelos de última geração no benchmark SuperGLEBer, ambos os modelos LL\"aMmlein tiveram um desempenho competitivo, consistentemente igualando ou superando modelos com tamanhos de parâmetros semelhantes. Os resultados mostram que a qualidade dos modelos aumenta com o tamanho conforme esperado, mas melhorias de desempenho em algumas tarefas atingiram um platô cedo, oferecendo insights valiosos sobre alocação de recursos para o desenvolvimento futuro de modelos.
Os Transformadores de Difusão (DiT) surgiram como modelos generativos poderosos para diversas tarefas, incluindo síntese de imagens, vídeos e fala. No entanto, o processo de inferência permanece computacionalmente custoso devido à avaliação repetida de módulos de atenção e feed-forward intensivos em recursos. Para lidar com isso, apresentamos o SmoothCache, uma técnica de aceleração de inferência agnóstica ao modelo para arquiteturas DiT. O SmoothCache aproveita a alta similaridade observada entre as saídas de camada em momentos de difusão adjacentes. Ao analisar os erros de representação por camada a partir de um pequeno conjunto de calibração, o SmoothCache armazena e reutiliza adaptativamente características-chave durante a inferência. Nossos experimentos demonstram que o SmoothCache alcança uma aceleração de 8% a 71%, mantendo ou até mesmo melhorando a qualidade de geração em diversas modalidades. Mostramos sua eficácia no DiT-XL para geração de imagens, no Open-Sora para texto para vídeo e no Stable Audio Open para texto para áudio, destacando seu potencial para viabilizar aplicações em tempo real e ampliar a acessibilidade de modelos DiT poderosos.
A geração aumentada por recuperação (RAG) surgiu como uma abordagem promissora para melhorar o desempenho de grandes modelos de linguagem (LLMs) em tarefas intensivas em conhecimento, como as do domínio médico. No entanto, a natureza sensível do domínio médico exige um sistema completamente preciso e confiável. Enquanto os benchmarks de RAG existentes se concentram principalmente na configuração padrão de recuperação-resposta, eles ignoram muitos cenários práticos que medem aspectos cruciais de um sistema médico confiável. Este artigo aborda essa lacuna fornecendo um framework abrangente de avaliação para sistemas de perguntas e respostas médicas em um cenário de RAG para essas situações, incluindo suficiência, integração e robustez. Apresentamos o Benchmark de Geração Aumentada por Recuperação Médica (MedRGB) que fornece vários elementos complementares para quatro conjuntos de dados de perguntas e respostas médicas para testar a capacidade dos LLMs de lidar com esses cenários específicos. Utilizando o MedRGB, realizamos avaliações extensivas tanto de LLMs comerciais de ponta quanto de modelos de código aberto em várias condições de recuperação. Nossos resultados experimentais revelam a capacidade limitada dos modelos atuais de lidar com ruído e desinformação nos documentos recuperados. Analisamos ainda os processos de raciocínio dos LLMs para fornecer insights valiosos e direções futuras para o desenvolvimento de sistemas RAG neste crítico domínio médico.
Representações Neurais Implícitas (INRs) empregam redes neurais para aproximar dados discretos como funções contínuas. No contexto de dados de vídeo, tais modelos podem ser utilizados para transformar as coordenadas das localizações de pixels juntamente com os tempos (ou índices) de ocorrência de quadros em valores de cor RGB. Embora as INRs facilitem a compressão eficaz, elas não são adequadas para fins de edição. Uma solução potencial é utilizar um modelo baseado em Splatting Gaussiano 3D (3DGS), como a Representação Gaussiana de Vídeo (VGR), que é capaz de codificar vídeo como uma multiplicidade de Gaussianas 3D e é aplicável para diversas operações de processamento de vídeo, incluindo edição. No entanto, neste caso, a capacidade de modificação é limitada a um conjunto restrito de transformações básicas. Para resolver esse problema, apresentamos o modelo Video Gaussian Splatting (VeGaS), que permite modificações realistas de dados de vídeo. Para construir o VeGaS, propomos uma nova família de distribuições Gaussianas Dobradas projetadas para capturar dinâmicas não lineares em um fluxo de vídeo e modelar quadros consecutivos por meio de Gaussianas 2D obtidas como distribuições condicionais respectivas. Nossos experimentos demonstram que o VeGaS supera as soluções de ponta em tarefas de reconstrução de quadros e permite modificações realistas de dados de vídeo. O código está disponível em: https://github.com/gmum/VeGaS.
As crescentes capacidades dos grandes modelos de linguagem (LLMs) levaram ao seu uso como substitutos do feedback humano para treinar e avaliar outros LLMs. Esses métodos frequentemente dependem de 'constituições', diretrizes escritas que um modelo crítico utiliza para fornecer feedback e melhorar as gerações. Investigamos como a escolha da constituição afeta a qualidade do feedback ao usar quatro constituições diferentes para melhorar a comunicação centrada no paciente em entrevistas médicas. Em comparações em pares realizadas por 215 avaliadores humanos, descobrimos que constituições detalhadas levaram a melhores resultados em relação às qualidades emotivas. No entanto, nenhuma das constituições superou a linha de base na aprendizagem de habilidades mais orientadas para a prática relacionadas à coleta e fornecimento de informações. Nossas descobertas indicam que, embora as constituições detalhadas devam ser priorizadas, existem possíveis limitações para a eficácia do feedback de IA como sinal de recompensa em determinadas áreas.