Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos visão-linguagem (VLMs) têm se destacado em tarefas multimodais, mas adaptá-los para tomada de decisão incorporada em ambientes de mundo aberto apresenta desafios. Um problema-chave é a dificuldade em conectar de forma fluida entidades individuais em observações de baixo nível com conceitos abstratos necessários para o planejamento. Uma abordagem comum para lidar com esse problema é através do uso de agentes hierárquicos, onde os VLMs atuam como raciocinadores de alto nível que dividem tarefas em subtarefas executáveis, geralmente especificadas usando linguagem e observações imaginadas. No entanto, a linguagem frequentemente falha em transmitir efetivamente informações espaciais, enquanto a geração de imagens futuras com precisão suficiente continua sendo um desafio. Para lidar com essas limitações, propomos a indução de contexto visual-temporal, um novo protocolo de comunicação entre VLMs e modelos de política. Esse protocolo aproveita a segmentação de objetos a partir de observações passadas e presentes para orientar as interações política-ambiente. Usando essa abordagem, treinamos o ROCKET-1, uma política de baixo nível que prevê ações com base em observações visuais concatenadas e máscaras de segmentação, com rastreamento de objetos em tempo real fornecido pelo SAM-2. Nosso método desbloqueia todo o potencial das habilidades de raciocínio visual-linguagem dos VLMs, permitindo que resolvam tarefas criativas complexas, especialmente aquelas fortemente dependentes de compreensão espacial. Experimentos no Minecraft demonstram que nossa abordagem permite que agentes realizem tarefas anteriormente inatingíveis, destacando a eficácia da indução de contexto visual-temporal na tomada de decisão incorporada. Códigos e demonstrações estarão disponíveis na página do projeto: https://craftjarvis.github.io/ROCKET-1.
O sucesso dos modelos autoregressivos de transformer com tokens discretos inspirou abordagens baseadas em quantização para modalidades contínuas, embora frequentemente limitem a qualidade de reconstrução. Portanto, introduzimos o SALAD, um modelo de difusão latente por token para conversão de texto em fala sem necessidade de treinamento, que opera em representações contínuas. O SALAD se baseia na cabeça de difusão expressiva proposta recentemente para geração de imagens e a estende para gerar saídas de comprimentos variáveis. Nossa abordagem utiliza tokens semânticos para fornecer informações contextuais e determinar a condição de parada. Propomos três variantes contínuas para nosso método, ampliando técnicas populares de síntese de fala discreta. Além disso, implementamos baselines discretos para cada variante e realizamos uma análise comparativa das técnicas de modelagem de fala discreta versus contínua. Nossos resultados demonstram que abordagens contínuas e discretas são altamente competentes, e que o SALAD alcança uma pontuação de inteligibilidade superior, mantendo a qualidade de fala e a similaridade de locutor em nível com o áudio real.
O eletrocardiograma (ECG) é uma ferramenta diagnóstica essencial e não invasiva para avaliar condições cardíacas. Os métodos automáticos de interpretação existentes sofrem de generalização limitada, focando em uma gama estreita de condições cardíacas e geralmente dependem de sinais fisiológicos brutos, que podem não estar prontamente disponíveis em ambientes com recursos limitados, onde apenas imagens de ECG impressas ou digitais são acessíveis. Avanços recentes em modelos de linguagem multimodais grandes (MLLMs) apresentam oportunidades promissoras para lidar com esses desafios. No entanto, a aplicação de MLLMs na interpretação de imagens de ECG ainda é desafiadora devido à falta de conjuntos de dados de ajuste de instruções e benchmarks de imagens de ECG bem estabelecidos para avaliação quantitativa. Para enfrentar esses desafios, apresentamos o ECGInstruct, um conjunto de dados abrangente de ajuste de instruções de imagens de ECG com mais de um milhão de amostras, abrangendo uma ampla gama de tarefas relacionadas ao ECG de diversas fontes de dados. Usando o ECGInstruct, desenvolvemos o PULSE, um MLLM adaptado para compreensão de imagens de ECG. Além disso, criamos o ECGBench, um novo benchmark de avaliação que abrange quatro tarefas-chave de interpretação de imagens de ECG em nove conjuntos de dados diferentes. Nossos experimentos mostram que o PULSE estabelece um novo estado-da-arte, superando MLLMs gerais com um aumento médio de precisão de 15% a 30%. Este trabalho destaca o potencial do PULSE para aprimorar a interpretação de ECG na prática clínica.
Neste artigo, apresentamos o \textit{FasterCache}, uma estratégia inovadora sem treinamento projetada para acelerar a inferência de modelos de difusão de vídeo com geração de alta qualidade. Ao analisar os métodos existentes baseados em cache, observamos que o reuso direto de características de passos adjacentes degrada a qualidade do vídeo devido à perda de variações sutis. Realizamos uma investigação pioneira do potencial de aceleração da orientação sem classificador (CFG) e revelamos uma redundância significativa entre características condicionais e incondicionais dentro do mesmo passo de tempo. Capitalizando essas observações, introduzimos o FasterCache para acelerar substancialmente a geração de vídeo baseada em difusão. Nossas principais contribuições incluem uma estratégia dinâmica de reuso de características que preserva tanto a distinção de características quanto a continuidade temporal, e o CFG-Cache que otimiza o reuso das saídas condicionais e incondicionais para aprimorar ainda mais a velocidade de inferência sem comprometer a qualidade do vídeo. Avaliamos empiricamente o FasterCache em modelos recentes de difusão de vídeo. Os resultados experimentais mostram que o FasterCache pode acelerar significativamente a geração de vídeo (por exemplo, 1,67 vezes mais rápido no Vchitect-2.0) mantendo a qualidade do vídeo comparável ao padrão, e consistentemente superando os métodos existentes tanto em velocidade de inferência quanto em qualidade de vídeo.
A capacidade de compreender áudio - que inclui fala, sons não verbais e música - é crucial para agentes de IA interagirem de forma eficaz com o mundo. Apresentamos o MMAU, um novo benchmark projetado para avaliar modelos de compreensão multimodal de áudio em tarefas que exigem conhecimento de nível especialista e raciocínio complexo. O MMAU é composto por 10 mil clipes de áudio cuidadosamente selecionados, combinados com perguntas e respostas em linguagem natural anotadas por humanos, abrangendo fala, sons ambientais e música. Ele inclui perguntas de extração de informações e raciocínio, exigindo que os modelos demonstrem 27 habilidades distintas em tarefas únicas e desafiadoras. Ao contrário de benchmarks existentes, o MMAU enfatiza a percepção avançada e o raciocínio com conhecimento específico de domínio, desafiando os modelos a lidar com tarefas semelhantes às enfrentadas por especialistas. Avaliamos 18 modelos de áudio-linguagem (Grandes) de código aberto e proprietários, demonstrando os desafios significativos apresentados pelo MMAU. Notavelmente, mesmo o avançado Gemini Pro v1.5 alcança apenas 52,97% de precisão, e o estado-da-arte de código aberto Qwen2-Audio atinge apenas 52,50%, destacando um espaço considerável para melhorias. Acreditamos que o MMAU impulsionará a comunidade de pesquisa em áudio e multimodal a desenvolver modelos de compreensão de áudio mais avançados capazes de resolver tarefas de áudio complexas.
Os Modelos Visão-Linguagem (VLMs) têm avançado significativamente recentemente, porém a escala limitada e a qualidade dos dados de instrução de código aberto prejudicam seu desempenho em comparação com modelos de código fechado. Neste trabalho, abordamos essa limitação ao introduzir o Infinity-MM, um conjunto de dados de instrução multimodal em larga escala com 40 milhões de amostras, aprimorado por meio de um rigoroso filtro de qualidade e deduplicação. Também propomos um método de geração de instruções sintéticas com base em VLMs de código aberto, utilizando anotações detalhadas de imagem e geração diversificada de perguntas. Com esses dados, treinamos um VLM de 2 bilhões de parâmetros, o Aquila-VL-2B, alcançando um desempenho de estado-da-arte para modelos de escala similar. Isso demonstra que expandir os dados de instrução e gerar dados sintéticos pode melhorar significativamente o desempenho de modelos de código aberto.
A proliferação de grandes modelos de linguagem (LLMs) levou à adoção de arquiteturas Mixture-of-Experts (MoE) que dinamicamente aproveitam sub-redes especializadas para melhorar a eficiência e o desempenho. Apesar de seus benefícios, os modelos MoE enfrentam desafios significativos durante a inferência, incluindo gerenciamento ineficiente de memória e agrupamento subótimo, devido a escolhas de design desalinhadas entre a arquitetura do modelo e as políticas do sistema. Além disso, a abordagem convencional de treinar MoEs do zero está se tornando cada vez mais proibitiva em termos de custo. Neste artigo, propomos um novo framework denominado Read-ME que transforma LLMs densos pré-treinados em modelos MoE menores (em contraste com a "reciclagem" de MoEs generalistas), evitando os altos custos do treinamento do zero. Nossa abordagem emprega esparsidade de ativação para extrair especialistas. Para compor os especialistas, examinamos o design de roteador em camadas amplamente adotado e mostramos sua redundância, introduzindo assim o roteador de pré-gateamento desacoplado do espinha dorsal do MoE que facilita a pré-computação amigável ao sistema e o agendamento de lookahead, aprimorando o agrupamento e o armazenamento em cache conscientes dos especialistas. Nosso codesign aborda lacunas críticas tanto nos aspectos algorítmicos quanto nos sistemas, estabelecendo uma alternativa escalável e eficiente para inferência de LLM em ambientes com recursos limitados. O Read-ME supera outros modelos densos de código aberto populares de escalas semelhantes, alcançando melhorias de até 10,1% no MMLU e melhorando a latência média de ponta a ponta em até 6,1%. Os códigos estão disponíveis em: https://github.com/VITA-Group/READ-ME.
Os benchmarks de PNL dependem de conjuntos de dados padronizados para treinar e avaliar modelos, sendo essenciais para o avanço do campo. Tradicionalmente, as anotações de especialistas garantem rótulos de alta qualidade; no entanto, o custo da anotação por especialistas não acompanha bem a crescente demanda por conjuntos de dados maiores necessários pelos modelos modernos. Enquanto a crowdsourcing oferece uma solução mais escalável, muitas vezes isso ocorre às custas da precisão e consistência das anotações. Avanços recentes em grandes modelos de linguagem (LLMs) oferecem novas oportunidades para aprimorar o processo de anotação, especialmente para detectar erros de rótulo em conjuntos de dados existentes. Neste trabalho, consideramos a abordagem recente de LLM-como-juiz, aproveitando um conjunto de LLMs para sinalizar exemplos potencialmente mal rotulados. Através de um estudo de caso de quatro conjuntos de dados do benchmark TRUE, abrangendo diferentes tarefas e domínios, analisamos empiricamente a qualidade da rotulagem dos conjuntos de dados existentes e comparamos as anotações de especialistas, crowdsourced e baseadas em LLM em termos de concordância, qualidade do rótulo e eficiência, demonstrando as forças e limitações de cada método de anotação. Nossas descobertas revelam um número substancial de erros de rótulo, que, quando corrigidos, causam um aumento significativo no desempenho do modelo relatado. Isso sugere que muitos dos chamados erros dos LLMs são devido a erros de rótulo em vez de falhas genuínas do modelo. Além disso, discutimos as implicações de dados mal rotulados e propomos métodos para mitigá-los no treinamento para melhorar o desempenho do modelo.
Os Transformers, a espinha dorsal dos modernos modelos de linguagem de grande escala (LLMs), enfrentam limitações arquiteturais inerentes que prejudicam suas capacidades de raciocínio. Ao contrário das redes recorrentes, os Transformers não possuem conexões recorrentes, o que os limita a uma computação de profundidade constante. Essa restrição os coloca na classe de complexidade TC^0, tornando-os teoricamente incapazes de resolver tarefas que exigem raciocínio profundo à medida que o comprimento de entrada aumenta. A contagem, um componente fundamental de muitas tarefas de raciocínio, também requer um aumento linear na profundidade de raciocínio para ser realizada indutivamente. Embora estudos anteriores tenham estabelecido os limites superiores da capacidade de contagem em modelos especializados baseados em Transformers (ou seja, modelos especificamente treinados para tarefas de contagem), essas descobertas não se estendem diretamente aos LLMs de propósito geral devido a diferenças nos mecanismos de raciocínio. Trabalhos recentes destacaram como o raciocínio Chain of Thought (CoT) pode ajudar a aliviar algumas das limitações arquiteturais dos Transformers em tarefas de contagem. No entanto, pouca atenção foi dada ao papel da tokenização nesses modelos. Ao contrário dos modelos especializados que frequentemente utilizam tokenização a nível de caractere, os LLMs geralmente dependem de tokenizadores a nível de byte (BPE), o que altera fundamentalmente a forma como o raciocínio é processado. Nosso trabalho investiga o impacto da tokenização nas habilidades de contagem dos LLMs, revelando variações significativas de desempenho com base em diferenças na tokenização de entrada. Fornecemos análises teóricas e experimentais, oferecendo insights sobre como as escolhas de tokenização podem minar a computabilidade teórica dos modelos, inspirando assim o desenvolvimento de novos métodos de tokenização para aprimorar o raciocínio nos LLMs.
Aprender com o feedback humano possibilitou o alinhamento de modelos de linguagem (LMs) com as preferências humanas. No entanto, coletar diretamente as preferências humanas pode ser caro, demorado e apresentar alta variância. Uma alternativa atraente é extrair preferências dos LMs como fonte de anotações sintéticas, pois são mais consistentes, mais baratas e escaláveis do que as anotações humanas; no entanto, também estão sujeitas a viéses e erros. Neste trabalho, introduzimos um framework de roteamento que combina entradas de humanos e LMs para alcançar uma melhor qualidade de anotação, reduzindo o custo total da anotação humana. O cerne de nossa abordagem é identificar instâncias de preferência que se beneficiarão de anotações humanas. Formulamos isso como um problema de otimização: dado um conjunto de dados de preferência e uma métrica de avaliação, treinamos um modelo de previsão de desempenho para prever o desempenho de um modelo de recompensa em uma combinação arbitrária de anotações humanas e de LM e empregamos uma estratégia de roteamento que seleciona uma combinação que maximize o desempenho previsto. Treinamos o modelo de previsão de desempenho no MultiPref, um novo conjunto de dados de preferência com 10 mil instâncias associadas a rótulos humanos e de LM. Mostramos que a mistura híbrida selecionada de preferências de LM e humanas diretas usando nosso framework de roteamento alcança um melhor desempenho do modelo de recompensa em comparação com o uso exclusivo de um deles. Simulamos a coleta seletiva de preferências humanas em outros três conjuntos de dados e mostramos que nosso método generaliza bem para os três. Analisamos as características do modelo de roteamento para identificar características de instâncias que podem se beneficiar do feedback humano, por exemplo, prompts com uma preocupação moderada de segurança ou complexidade moderada de intenção. Disponibilizamos o conjunto de dados, a plataforma de anotação e o código-fonte utilizados neste estudo para promover uma coleta de preferências mais eficiente e precisa no futuro.
Estudos recentes identificaram um fator agravante das alucinações de LLM como a inconsistência de conhecimento entre pré-treinamento e ajuste fino, onde dados de ajuste fino não familiares induzem o LLM a fabricar saídas plausíveis, porém incorretas. Neste artigo, propomos uma estratégia de ajuste fino inovadora chamada Prereq-Tune para lidar com essa inconsistência de conhecimento e reduzir as alucinações. Fundamentalmente, o Prereq-Tune desembaraça a aprendizagem de habilidades e conhecimento, de modo que o modelo aprende apenas as habilidades da tarefa sem ser afetado pela inconsistência de conhecimento. Para alcançar isso, o Prereq-Tune introduz uma etapa adicional de aprendizagem de pré-requisitos para aprender o conhecimento necessário para o ajuste fino da tarefa, permitindo que o ajuste fino subsequente se concentre apenas nas habilidades da tarefa. O Prereq-Tune também pode ser combinado com dados sintéticos fictícios para aprimorar a fundamentação das saídas do LLM em seu conhecimento interno. Experimentos mostram que o Prereq-Tune supera as bases existentes na melhoria da factualidade do LLM em tarefas de perguntas e respostas curtas e na geração de texto longo. Ele também abre novas possibilidades para a geração controlada por conhecimento em LLMs. Nosso código está disponível em https://github.com/UCSB-NLP-Chang/Prereq_tune.git.
Grandes modelos de linguagem (LLMs) podem armazenar uma quantidade significativa de conhecimento factual em seus parâmetros. No entanto, o conhecimento paramétrico deles pode entrar em conflito com as informações fornecidas no contexto. Tais conflitos podem levar a comportamentos indesejáveis do modelo, como depender de informações desatualizadas ou incorretas. Neste trabalho, investigamos se os LLMs podem identificar conflitos de conhecimento e se é possível saber em qual fonte de conhecimento o modelo confiará, analisando o fluxo residual do LLM. Através de tarefas de sondagem, descobrimos que os LLMs podem internamente registrar o sinal de conflito de conhecimento no fluxo residual, o qual pode ser detectado com precisão por meio da sondagem das ativações intermediárias do modelo. Isso nos permite detectar conflitos dentro do fluxo residual antes de gerar as respostas sem modificar a entrada ou os parâmetros do modelo. Além disso, constatamos que o fluxo residual mostra padrões significativamente diferentes quando o modelo confia no conhecimento contextual versus o conhecimento paramétrico para resolver conflitos. Esse padrão pode ser utilizado para estimar o comportamento dos LLMs quando ocorrem conflitos e prevenir respostas inesperadas antes de produzi-las. Nossa análise oferece insights sobre como os LLMs gerenciam internamente conflitos de conhecimento e fornece uma base para o desenvolvimento de métodos para controlar os processos de seleção de conhecimento.
Vídeos de robôs interagindo com objetos codificam informações ricas sobre a dinâmica dos objetos. No entanto, abordagens existentes de previsão de vídeo geralmente não consideram explicitamente as informações 3D dos vídeos, como ações do robô e estados 3D dos objetos, limitando seu uso em aplicações robóticas do mundo real. Neste trabalho, introduzimos um framework para aprender a dinâmica de objetos diretamente a partir de vídeos RGB de múltiplas visões, considerando explicitamente as trajetórias de ação do robô e seus efeitos na dinâmica da cena. Utilizamos a representação gaussiana 3D do Splatting Gaussiano 3D (3DGS) para treinar um modelo de dinâmica baseado em partículas usando Redes Neurais Gráficas. Este modelo opera em partículas de controle esparsas, amostradas a partir das reconstruções gaussianas 3D densamente rastreadas. Ao aprender o modelo de dinâmica neural com dados de interação offline do robô, nosso método pode prever os movimentos dos objetos sob diferentes configurações iniciais e ações do robô não vistas. As transformações 3D das gaussianas podem ser interpoladas a partir dos movimentos das partículas de controle, permitindo a renderização de estados futuros previstos dos objetos e alcançando previsão de vídeo condicionada à ação. O modelo de dinâmica também pode ser aplicado a frameworks de planejamento baseado em modelo para tarefas de manipulação de objetos. Realizamos experimentos em vários tipos de materiais deformáveis, incluindo cordas, roupas e animais de pelúcia, demonstrando a capacidade de nosso framework em modelar formas e dinâmicas complexas. Nossa página do projeto está disponível em https://gs-dynamics.github.io.
A capacidade de adaptar crenças ou comportamentos em resposta a resultados inesperados, reflexão, é fundamental para a interação de sistemas inteligentes com o mundo. De uma perspectiva de ciência cognitiva, isso serve como um princípio central de inteligência aplicável tanto a sistemas humanos quanto de IA. Para abordar o debate sobre a inteligência de grandes modelos de linguagem (LLMs), propomos o Reflection-Bench, um benchmark abrangente composto por 7 tarefas que abrangem funções cognitivas essenciais para a reflexão, incluindo percepção, memória, atualização de crenças, tomada de decisão, previsão, pensamento contrafactual e meta-reflexão. Avaliamos o desempenho de 13 LLMs proeminentes como OpenAI o1, GPT-4, Claude 3.5 Sonnet, etc. Os resultados indicam que os LLMs atuais ainda carecem de habilidade de reflexão satisfatória. Discutimos as causas subjacentes desses resultados e sugerimos possíveis direções para pesquisas futuras. Em conclusão, o Reflection-Bench oferece tanto ferramentas de avaliação quanto inspiração para o desenvolvimento de IA capazes de interagir de forma confiável com o ambiente. Nossos dados e código estão disponíveis em https://github.com/YabYum/ReflectionBench.
A avaliação de viés de fontes de notícias é fundamental para profissionais, organizações e pesquisadores que dependem de evidências verídicas para coleta e relato de informações. Enquanto certos indicadores de viés são discerníveis a partir da análise de conteúdo, descritores como viés político e notícias falsas apresentam desafios maiores. Neste artigo, propomos uma extensão a um método de estimativa de confiabilidade de mídia recentemente apresentado, que se concentra em modelar veículos de comunicação e suas interações web longitudinais. Concretamente, avaliamos o desempenho de classificação de quatro estratégias de aprendizado por reforço em um grande grafo de hiperlinks de mídia de notícias. Nossos experimentos, visando dois descritores de viés desafiadores, relato factual e viés político, mostraram uma melhoria significativa no desempenho no nível da mídia de origem. Além disso, validamos nossos métodos no desafio do laboratório CheckThat! da CLEF 2023, superando os resultados relatados tanto no F1-score quanto na métrica MAE oficial. Além disso, contribuímos ao disponibilizar o maior conjunto de dados anotados de fontes de mídia de notícias, categorizado com rótulos de relato factual e viés político. Nossas descobertas sugerem que perfilar fontes de mídia com base em suas interações de hiperlinks ao longo do tempo é viável, oferecendo uma visão panorâmica das paisagens midiáticas em evolução.
O pré-treinamento não supervisionado tem sido transformador em muitos domínios supervisionados. No entanto, aplicar tais ideias ao aprendizado por reforço (RL) apresenta um desafio único, uma vez que o ajuste fino não envolve a imitação de dados específicos da tarefa, mas sim explorar e localizar a solução por meio de auto aprimoramento iterativo. Neste trabalho, estudamos como dados de trajetória prévia não rotulados podem ser aproveitados para aprender estratégias de exploração eficientes. Enquanto dados prévios podem ser usados para pré-treinar um conjunto de habilidades de baixo nível, ou como dados off-policy adicionais para RL online, tem sido incerto como combinar essas ideias de forma eficaz para exploração online. Nosso método SUPE (Habilidades a partir de Dados Prévios Não Rotulados para Exploração) demonstra que uma combinação cuidadosa dessas ideias potencializa seus benefícios. Nosso método primeiro extrai habilidades de baixo nível usando um autoencoder variacional (VAE), e então pseudo-rotula trajetórias não rotuladas usando um modelo de recompensa otimista, transformando dados prévios em exemplos de alto nível relevantes para a tarefa. Por fim, o SUPE utiliza esses exemplos transformados como dados off-policy adicionais para RL online a fim de aprender uma política de alto nível que compõe habilidades de baixo nível pré-treinadas para explorar de forma eficiente. Demonstramos empiricamente que o SUPE supera consistentemente estratégias anteriores, resolvendo com sucesso uma série de tarefas de longo horizonte e recompensa esparsa. Código: https://github.com/rail-berkeley/supe.