Artigos de pesquisa em IA selecionados diariamente com traduções
Desenvolver políticas visuomotoras robustas e corrigíveis para manipulação robótica é desafiador devido à falta de mecanismos de auto-recuperação de falhas e às limitações de instruções em linguagem simples para guiar as ações do robô. Para lidar com essas questões, propomos um pipeline escalável de geração de dados que automaticamente aumenta demonstrações de especialistas com trajetórias de recuperação de falhas e anotações em linguagem detalhada para treinamento. Em seguida, introduzimos o Rich languAge-guided failure reCovERy (RACER), um framework supervisor-ator, que combina dados de recuperação de falhas com descrições em linguagem detalhada para aprimorar o controle do robô. O RACER apresenta um modelo visão-linguagem (VLM) que atua como supervisor online, fornecendo orientações linguísticas detalhadas para correção de erros e execução de tarefas, e uma política visuomotora condicionada à linguagem como ator para prever as próximas ações. Nossos resultados experimentais mostram que o RACER supera o estado-da-arte Robotic View Transformer (RVT) no RLbench em várias configurações de avaliação, incluindo tarefas padrão de longo horizonte, tarefas dinâmicas de mudança de objetivo e tarefas não vistas de zero-shot, alcançando desempenho superior em ambientes simulados e do mundo real. Vídeos e código estão disponíveis em: https://rich-language-failure-recovery.github.io.
Os grandes modelos de linguagem (LLMs) têm demonstrado capacidades notáveis em diversos domínios e tarefas, ampliando os limites do nosso conhecimento em aprendizado e cognição. O modelo mais recente, o o1 da OpenAI, destaca-se como o primeiro LLM com uma técnica internalizada de encadeamento de pensamento utilizando estratégias de aprendizado por reforço. Embora tenha demonstrado capacidades surpreendentemente fortes em diversas tarefas gerais de linguagem, seu desempenho em campos especializados como a medicina permanece desconhecido. Com esse propósito, este relatório fornece uma exploração abrangente do o1 em diferentes cenários médicos, examinando 3 aspectos-chave: compreensão, raciocínio e multilinguismo. Especificamente, nossa avaliação abrange 6 tarefas utilizando dados de 37 conjuntos de dados médicos, incluindo dois novos e mais desafiadores questionários de perguntas e respostas (QA) baseados em questionários médicos profissionais do New England Journal of Medicine (NEJM) e The Lancet. Esses conjuntos de dados oferecem maior relevância clínica em comparação com benchmarks padrão de QA médico, como o MedQA, traduzindo-se de forma mais eficaz para a utilidade clínica do mundo real. Nossa análise do o1 sugere que a capacidade aprimorada de raciocínio dos LLMs pode beneficiar significativamente sua capacidade de compreender várias instruções médicas e raciocinar por meio de cenários clínicos complexos. Notavelmente, o o1 supera o anterior GPT-4 em precisão em média de 6,2% e 6,6% em 19 conjuntos de dados e dois cenários de QA complexos recém-criados. No entanto, identificamos várias fraquezas tanto na capacidade do modelo quanto nos protocolos de avaliação existentes, incluindo alucinação, capacidade multilíngue inconsistente e métricas discrepantes para avaliação. Disponibilizamos nossos dados brutos e resultados do modelo em https://ucsc-vlaa.github.io/o1_medicine/ para futuras pesquisas.
O sucesso do ajuste de instrução visual acelerou o desenvolvimento de grandes modelos de linguagem e visão (LLVMs). Seguindo as leis de escalonamento dos grandes modelos de linguagem ajustados por instrução (LLMs), os LLVMs aumentaram ainda mais seus tamanhos, atingindo 26B, 34B e até 80B parâmetros. Embora esse aumento no tamanho do modelo tenha proporcionado ganhos significativos de desempenho, exige substancialmente mais recursos de hardware tanto para treinamento quanto para inferência. Consequentemente, naturalmente existe uma forte necessidade de LLVMs eficientes que alcancem o desempenho de modelos maiores sendo menores em tamanho. Para atender a essa necessidade, apresentamos uma nova família eficiente de LLVMs com tamanhos de modelo de 0,5B, 1,8B, 3,8B e 7B parâmetros, Phantom, que melhora significativamente as capacidades de aprendizado dentro de estruturas limitadas. Ao aumentar temporariamente a dimensão oculta latente durante a autoatenção multi-cabeça (MHSA), fazemos com que os LLVMs se preparem para visualizar e compreender muito mais conhecimento de visão e linguagem no latente, sem aumentar substancialmente os tamanhos físicos dos modelos. Para maximizar sua vantagem, introduzimos a Otimização Phantom (PO) usando tanto o ajuste fino supervisionado autoregressivo (SFT) quanto um conceito semelhante à otimização de preferência direta (DPO), que segue efetivamente respostas corretas enquanto elimina as incorretas e ambíguas. Phantom supera inúmeros LLVMs maiores de código aberto e fechado, posicionando-se como uma solução líder no cenário de LLVMs eficientes.
Este artigo apresenta um assistente visual de imagem para imagem versátil, PixWizard, projetado para geração, manipulação e tradução de imagens com base em instruções em linguagem livre. Para isso, abordamos uma variedade de tarefas de visão em um framework unificado de geração de imagem-texto para imagem e criamos um Conjunto de Dados de Ajuste de Instruções Omni Pixel-a-Pixel. Ao construir modelos detalhados de instruções em linguagem natural, incluímos de forma abrangente um grande conjunto de tarefas de visão diversas, como geração de texto para imagem, restauração de imagem, ancoragem de imagem, previsão de imagem densa, edição de imagem, geração controlável, inpainting/outpainting e mais. Além disso, adotamos Transformadores de Difusão (DiT) como nosso modelo base e estendemos suas capacidades com um mecanismo flexível de qualquer resolução, permitindo que o modelo processe dinamicamente imagens com base na proporção de aspecto da entrada, alinhando-se de perto com os processos perceptuais humanos. O modelo também incorpora orientação consciente da estrutura e semântica para facilitar a fusão eficaz de informações da imagem de entrada. Nossos experimentos demonstram que o PixWizard não apenas demonstra habilidades impressionantes de geração e compreensão para imagens com diversas resoluções, mas também exibe promissoras capacidades de generalização com tarefas e instruções humanas não vistas. O código e os recursos relacionados estão disponíveis em https://github.com/AFeng-x/PixWizard
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado um potencial significativo na transformação de aplicações clínicas. Neste estudo, investigamos a eficácia de quatro técnicas na adaptação de LLMs para casos de uso clínico: pré-treinamento contínuo, ajuste fino instrutivo, NEFTune e engenharia de prompt. Empregamos esses métodos nos modelos Mistral 7B e Mixtral 8x7B, aproveitando um conjunto de dados de pré-treinamento clínico em larga escala de 50 bilhões de tokens e um conjunto de dados de ajuste fino instrutivo de 500 milhões de tokens. Nossa avaliação em várias tarefas clínicas revela o impacto de cada técnica. Enquanto o pré-treinamento contínuo além de 250 bilhões de tokens resulta em melhorias marginais por si só, ele estabelece uma base sólida para o ajuste fino instrutivo. Notavelmente, o NEFTune, projetado principalmente para melhorar a qualidade de geração, demonstra surpreendentemente ganhos adicionais em nosso benchmark. Métodos complexos de engenharia de prompt aprimoram ainda mais o desempenho. Essas descobertas mostram a importância de adaptar estratégias de ajuste fino e explorar técnicas inovadoras para otimizar o desempenho de LLMs no domínio clínico.
Abordamos o problema de gerar reflexos de espelho altamente realistas e plausíveis usando modelos generativos baseados em difusão. Formulamos esse problema como uma tarefa de inpainting de imagem, permitindo mais controle do usuário sobre a colocação de espelhos durante o processo de geração. Para possibilitar isso, criamos o SynMirror, um conjunto de dados em grande escala de cenas sintéticas diversas com objetos colocados na frente de espelhos. O SynMirror contém cerca de 198 mil amostras renderizadas a partir de 66 mil objetos 3D únicos, juntamente com seus mapas de profundidade associados, mapas normais e máscaras de segmentação por instância, para capturar propriedades geométricas relevantes da cena. Utilizando esse conjunto de dados, propomos um método de inpainting inovador condicionado à profundidade chamado MirrorFusion, que gera reflexos de espelho geometricamente consistentes e fotorrealistas de alta qualidade, dado uma imagem de entrada e uma máscara que representa a região do espelho. O MirrorFusion supera os métodos de ponta no SynMirror, conforme demonstrado por uma extensa análise quantitativa e qualitativa. Até onde sabemos, somos os primeiros a abordar com sucesso o desafiador problema de gerar reflexos de espelho controlados e fiéis de um objeto em uma cena usando modelos baseados em difusão. O SynMirror e o MirrorFusion abrem novas possibilidades para edição de imagem e aplicações de realidade aumentada tanto para profissionais quanto para pesquisadores.
Trabalhos recentes em renderização inversa têm mostrado promessa no uso de imagens multi-visão de um objeto para recuperar forma, albedo e materiais. No entanto, os componentes recuperados frequentemente falham em renderizar com precisão sob novas condições de iluminação devido ao desafio intrínseco de desembaraçar as propriedades de albedo e material das imagens de entrada. Para enfrentar esse desafio, introduzimos o MaterialFusion, um aprimorado pipeline convencional de renderização inversa 3D que incorpora uma priori 2D sobre textura e propriedades de material. Apresentamos o StableMaterial, um modelo de difusão 2D que aprimora dados multi-iluminados para estimar o albedo e material mais prováveis a partir das aparências de entrada fornecidas. Este modelo é treinado em dados de albedo, material e imagens relit derivadas de um conjunto de dados curado de aproximadamente ~12K objetos sintéticos projetados por artistas chamado BlenderVault. Incorporamos esta priori de difusão em um framework de renderização inversa onde usamos amostragem de destilação de pontuação (SDS) para guiar a otimização do albedo e materiais, melhorando o desempenho de relighting em comparação com trabalhos anteriores. Validamos o desempenho de relighting do MaterialFusion em 4 conjuntos de dados de objetos sintéticos e reais sob diversas condições de iluminação, mostrando que nossa abordagem auxiliada por difusão melhora significativamente a aparência dos objetos reconstruídos sob novas condições de iluminação. Pretendemos disponibilizar publicamente nosso conjunto de dados BlenderVault para apoiar pesquisas adicionais nesse campo.
O lançamento do ChatGPT em novembro de 2022 desencadeou uma explosão de interesse em pós-treinamento e uma avalanche de novos métodos de otimização de preferências (PO). Esses métodos afirmam ter uma superior alinhamento devido a uma melhor correspondência com as preferências humanas em pares, frequentemente avaliadas por juízes LLM. Neste trabalho, tentamos responder à seguinte pergunta - as preferências dos juízes LLM se traduzem em avanços em outras métricas mais concretas de alinhamento e, se não, por quê? Definimos uma métrica concreta para alinhamento e introduzimos o SOS-Bench, o maior meta-benchmark LLM padronizado e reproduzível até o momento. Descobrimos que (1) as avaliações LLM não se correlacionam com medidas concretas de segurança, conhecimento do mundo e seguimento de instruções; (2) os juízes LLM possuem poderosos preconceitos implícitos, priorizando estilo em detrimento da factualidade e segurança; e (3) a etapa de ajuste fino supervisionado (SFT) do pós-treinamento, e não a etapa PO, tem o maior impacto no alinhamento, com a escala de dados e a diversidade de prompts como os principais fatores impulsionadores. Nosso código-fonte e resultados completos podem ser encontrados em https://github.com/penfever/sos-bench.
Neste artigo, apresentamos um módulo de Transferência de Voz (VT) de zero-shot que pode ser integrado de forma contínua em um sistema multi-idioma de Texto para Fala (TTS) para transferir a voz de um indivíduo entre idiomas. Nosso módulo de VT proposto consiste em um codificador de locutor que processa a fala de referência, uma camada de gargalo e adaptadores residuais, conectados às camadas pré-existentes do TTS. Comparamos o desempenho de várias configurações desses componentes e relatamos a Pontuação Média de Opinião (MOS) e a Similaridade de Locutor entre idiomas. Usando uma única fala de referência em inglês por locutor, alcançamos uma pontuação média de similaridade na transferência de voz de 73% em nove idiomas-alvo. As características vocais contribuem significativamente para a construção e percepção da identidade individual. A perda da voz de alguém, devido a condições físicas ou neurológicas, pode levar a um profundo senso de perda, impactando a identidade central de alguém. Como estudo de caso, demonstramos que nossa abordagem não só pode transferir fala típica, mas também restaurar as vozes de indivíduos com disartria, mesmo quando apenas amostras de fala atípica estão disponíveis - uma utilidade valiosa para aqueles que nunca tiveram fala típica ou gravaram sua voz. Amostras de áudio típicas cruzando idiomas, além de vídeos demonstrando a restauração de voz para falantes com disartria, estão disponíveis aqui (google.github.io/tacotron/publications/zero_shot_voice_transfer).
Desenvolver um controlador único e versátil baseado em física que possa dar vida a personagens interativos em uma ampla gama de cenários representa uma fronteira emocionante na animação de personagens. Um controlador ideal deve suportar diversas modalidades de controle, como poucos keyframes de destino, instruções de texto e informações de cena. Enquanto trabalhos anteriores propuseram modelos de controle simulados fisicamente e conscientes do cenário, esses sistemas predominantemente focaram em desenvolver controladores que se especializam em um conjunto restrito de tarefas e modalidades de controle. Este trabalho apresenta o MaskedMimic, uma abordagem inovadora que formula o controle de personagens baseado em física como um problema geral de inpainting de movimento. Nosso insight chave é treinar um modelo unificado para sintetizar movimentos a partir de descrições de movimento parciais (mascaradas), como keyframes mascarados, objetos, descrições de texto ou qualquer combinação destes. Isso é alcançado aproveitando dados de rastreamento de movimento e projetando um método de treinamento escalável que pode utilizar efetivamente diversas descrições de movimento para produzir animações coerentes. Através desse processo, nossa abordagem aprende um controlador baseado em física que fornece uma interface de controle intuitiva sem exigir engenharia de recompensa tediosa para todos os comportamentos de interesse. O controlador resultante suporta uma ampla gama de modalidades de controle e permite transições suaves entre tarefas díspares. Ao unificar o controle de personagens através do inpainting de movimento, o MaskedMimic cria personagens virtuais versáteis. Esses personagens podem se adaptar dinamicamente a cenas complexas e compor movimentos diversos sob demanda, possibilitando experiências mais interativas e imersivas.
A diabetes é uma doença crônica que representa um significativo fardo para a saúde global, e otimizar o manejo da diabetes requer colaboração entre múltiplos intervenientes. Modelos de linguagem de grande escala (LLMs) têm demonstrado promessa em vários cenários de saúde, mas sua eficácia em uma ampla gama de tarefas relacionadas à diabetes ainda não foi comprovada. Neste estudo, introduzimos um framework para treinar e validar LLMs específicos para diabetes. Primeiramente, desenvolvemos um pipeline abrangente de processamento de dados que inclui coleta, filtragem, aumento e refinamento de dados. Esta abordagem contribui para a criação de um conjunto de dados específico para diabetes de alta qualidade, e diversos benchmarks de avaliação completamente do zero. Utilizando o conjunto de dados de treinamento coletado, refinamos um conjunto de LLMs específicos para diabetes que demonstraram proficiência de ponta na compreensão e processamento de várias tarefas relacionadas à diabetes em comparação com outros LLMs. Além disso, estudos clínicos mostraram as potenciais aplicações de nossos modelos no cuidado da diabetes, incluindo fornecer assistência médica personalizada, auxiliar na educação médica e otimizar tarefas clínicas. Em conclusão, nosso estudo introduziu um framework para desenvolver e avaliar uma família de LLMs específicos para diabetes, e destacou seu potencial para aprimorar a prática clínica e fornecer suporte personalizado e baseado em dados para a diabetes ao lidar com diferentes usuários finais. O código está disponível via GitHub em https://github.com/waltonfuture/Diabetica.
Existe um interesse crescente em utilizar IA generativa para criar espaços 3D para aplicações de Realidade Virtual (RV). No entanto, os modelos atuais produzem ambientes artificiais, não sendo capazes de apoiar tarefas colaborativas que se beneficiam da incorporação do contexto físico do usuário. Para gerar ambientes que suportem a telepresença em RV, apresentamos o SpaceBlender, um novo pipeline que utiliza técnicas de IA generativa para mesclar os arredores físicos dos usuários em espaços virtuais unificados. Este pipeline transforma imagens 2D fornecidas pelo usuário em ambientes 3D ricos em contexto por meio de um processo iterativo composto por estimativa de profundidade, alinhamento de malha e conclusão de espaço baseada em difusão, guiada por premissas geométricas e prompts de texto adaptativos. Em um estudo preliminar dentro de sujeitos, no qual 20 participantes realizaram uma tarefa colaborativa de diagramação de afinidade em RV em pares, comparamos o SpaceBlender com um ambiente virtual genérico e um framework de geração de cenas de última geração, avaliando sua capacidade de criar espaços virtuais adequados para colaboração. Os participantes apreciaram a familiaridade aprimorada e o contexto fornecido pelo SpaceBlender, mas também observaram complexidades nos ambientes generativos que poderiam desviar o foco da tarefa. Com base no feedback dos participantes, propomos direções para melhorar o pipeline e discutimos o valor e o design de espaços mesclados para diferentes cenários.
Este artigo apresenta um estudo de caso de tarefas de codificação pelos mais recentes modelos de raciocínio da OpenAI, ou seja, o1-preview e o1-mini, em comparação com outros modelos de ponta. Os modelos o1 entregam resultados de SOTA para o WebApp1K, um benchmark de tarefa única. Para isso, introduzimos o WebApp1K-Duo, um benchmark mais desafiador que duplica o número de tarefas e casos de teste. O novo benchmark faz com que o desempenho dos modelos o1 declinem significativamente, ficando atrás do Claude 3.5. Além disso, eles consistentemente falham quando confrontados com casos de teste atípicos, porém corretos, uma armadilha que modelos não de raciocínio ocasionalmente evitam. Hipotetizamos que a variabilidade de desempenho se deve à compreensão das instruções. Especificamente, o mecanismo de raciocínio melhora o desempenho quando todas as expectativas são capturadas, ao passo que exacerba erros quando expectativas-chave são perdidas, potencialmente impactadas pelos comprimentos de entrada. Dessa forma, argumentamos que o sucesso na codificação de modelos de raciocínio depende do modelo base de alta qualidade e da SFT para garantir adesão meticulosa às instruções.
Os sons da fala transmitem uma grande quantidade de informações sobre as cenas, resultando em uma variedade de efeitos que vão desde a reverberação até sons ambientes adicionais. Neste artigo, manipulamos a fala de entrada para que soe como se tivesse sido gravada em uma cena diferente, considerando um exemplo condicional áudio-visual gravado dessa cena. Nosso modelo aprende por auto-supervisão, aproveitando o fato de que vídeos naturais contêm eventos sonoros e texturas recorrentes. Extraímos um trecho de áudio de um vídeo e aplicamos aprimoramento de fala. Em seguida, treinamos um modelo de difusão latente para recuperar a fala original, utilizando outro trecho áudio-visual retirado de outro ponto do vídeo como uma pista condicional. Através desse processo, o modelo aprende a transferir as propriedades sonoras do exemplo condicional para a fala de entrada. Mostramos que nosso modelo pode ser treinado com sucesso usando vídeos não rotulados, capturados em ambientes naturais, e que um sinal visual adicional pode melhorar suas habilidades de previsão sonora. Consulte a página do nosso projeto para ver os resultados em vídeo: https://tinglok.netlify.app/files/avsoundscape/