Artigos de pesquisa em IA selecionados diariamente com traduções
Os benchmarks são ferramentas importantes para acompanhar os avanços rápidos nas capacidades de modelos de linguagem grandes (LLM). No entanto, os benchmarks não estão acompanhando o ritmo em termos de dificuldade: os LLMs agora alcançam mais de 90\% de precisão em benchmarks populares como MMLU, limitando a medição informada das capacidades de ponta dos LLMs. Em resposta, introduzimos o Último Exame da Humanidade (HLE), um benchmark multimodal na fronteira do conhecimento humano, projetado para ser o último benchmark acadêmico fechado de seu tipo com ampla cobertura de assuntos. O HLE consiste em 3.000 perguntas em dezenas de disciplinas, incluindo matemática, humanidades e ciências naturais. O HLE é desenvolvido globalmente por especialistas em determinadas áreas e consiste em perguntas de múltipla escolha e de resposta curta adequadas para correção automatizada. Cada pergunta possui uma solução conhecida que é inequívoca e facilmente verificável, mas que não pode ser respondida rapidamente por meio de recuperação na internet. Os LLMs de ponta demonstram baixa precisão e calibração no HLE, destacando uma lacuna significativa entre as capacidades atuais dos LLMs e a fronteira humana especializada em perguntas acadêmicas fechadas. Para informar a pesquisa e a formulação de políticas com base em uma compreensão clara das capacidades do modelo, disponibilizamos publicamente o HLE em https://lastexam.ai.
Este artigo apresenta uma abordagem para treinar modelos RAG semelhantes a o1 que recuperam e raciocinam sobre informações relevantes passo a passo antes de gerar a resposta final. Os métodos RAG convencionais geralmente realizam uma única etapa de recuperação antes do processo de geração, o que limita sua eficácia ao lidar com consultas complexas devido a resultados de recuperação imperfeitos. Em contraste, nosso método proposto, CoRAG (Geração Aumentada por Cadeia de Recuperação), permite que o modelo reformule dinamicamente a consulta com base no estado em evolução. Para treinar o CoRAG de forma eficaz, utilizamos amostragem de rejeição para gerar automaticamente cadeias de recuperação intermediárias, aumentando assim conjuntos de dados RAG existentes que fornecem apenas a resposta final correta. No momento do teste, propomos várias estratégias de decodificação para dimensionar o cálculo do modelo no momento do teste, controlando o comprimento e o número de cadeias de recuperação amostradas. Resultados experimentais em vários benchmarks validam a eficácia do CoRAG, especialmente em tarefas de resposta a perguntas de múltiplas etapas, onde observamos mais de 10 pontos de melhoria na pontuação EM em comparação com baselines fortes. No benchmark KILT, o CoRAG estabelece um novo desempenho de ponta em uma ampla gama de tarefas intensivas em conhecimento. Além disso, oferecemos análises abrangentes para entender o comportamento de dimensionamento do CoRAG, lançando as bases para pesquisas futuras com o objetivo de desenvolver modelos de base factual e fundamentada.
As críticas são importantes para aprimorar o desempenho de Modelos de Linguagem de Grande Escala (LLMs), permitindo tanto a auto melhoria quanto o feedback construtivo para outros, identificando falhas e sugerindo melhorias. No entanto, avaliar as capacidades de crítica dos LLMs apresenta um desafio significativo devido à natureza aberta da tarefa. Neste trabalho, introduzimos um novo benchmark projetado para avaliar as capacidades de crítica dos LLMs. Ao contrário dos benchmarks existentes, que normalmente funcionam de forma aberta, nossa abordagem emprega uma metodologia de circuito fechado que avalia a qualidade das correções geradas a partir das críticas. Além disso, o benchmark incorpora características como auto-crítica, crítica cruzada e crítica iterativa, que são cruciais para distinguir as habilidades de modelos de raciocínio avançados dos mais clássicos. Implementamos este benchmark usando oito desafiadoras tarefas de raciocínio. Temos várias descobertas interessantes. Primeiramente, apesar de demonstrar desempenho comparável na geração direta de cadeias de pensamento, os LLMs clássicos ficam significativamente atrás do modelo baseado em raciocínio avançado o1-mini em todos os cenários de crítica. Em segundo lugar, em configurações de auto-crítica e crítica iterativa, os LLMs clássicos podem até ter um desempenho inferior em relação às suas capacidades básicas. Esperamos que este benchmark sirva como um recurso valioso para orientar futuros avanços. O código e os dados estão disponíveis em https://github.com/tangzhy/RealCritic.
Com a rápida iteração de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) e as demandas em evolução do campo, o número de benchmarks produzidos anualmente disparou para centenas. O crescimento rápido inevitavelmente resultou em uma redundância significativa entre os benchmarks. Portanto, é crucial dar um passo atrás e avaliar criticamente o estado atual da redundância e propor princípios direcionados para a construção de benchmarks MLLM eficazes. Neste artigo, focamos na redundância a partir de três perspectivas-chave: 1) Redundância das dimensões de capacidade dos benchmarks, 2) Redundância no número de perguntas de teste e 3) Redundância entre benchmarks dentro de domínios específicos. Através da análise abrangente do desempenho de centenas de MLLMs em mais de 20 benchmarks, temos como objetivo mensurar quantitativamente o nível de redundância presente nas avaliações de MLLM existentes, fornecer insights valiosos para orientar o desenvolvimento futuro de benchmarks MLLM e oferecer estratégias para refinar e abordar efetivamente as questões de redundância.
E se a inteligência artificial não apenas pudesse resolver problemas para os quais foi treinada, mas também aprender a ensinar a si mesma a resolver novos problemas (ou seja, meta-aprender)? Neste estudo, demonstramos que um transformer pré-treinado, refinado com aprendizado por reforço ao longo de vários episódios, desenvolve a capacidade de resolver problemas que nunca encontrou antes - uma habilidade emergente chamada Aprendizado por Reforço em Contexto (ICRL). Este poderoso meta-aprendiz não só se destaca na resolução de ambientes não vistos na distribuição com uma eficiência de amostragem notável, mas também apresenta um desempenho sólido em ambientes fora da distribuição. Além disso, mostramos que ele exibe robustez em relação à qualidade de seus dados de treinamento, costura de forma contínua comportamentos de seu contexto e se adapta a ambientes não estacionários. Esses comportamentos demonstram que um transformer treinado com RL pode melhorar iterativamente suas próprias soluções, tornando-o um excelente solucionador de problemas de propósito geral.
Propomos Avatares Gaussianos de Corpo Inteiro Reluzentes, uma nova abordagem para modelar avatares de corpo inteiro reluzentes com detalhes refinados, incluindo rosto e mãos. O desafio único para reluzir avatares de corpo inteiro reside nas grandes deformações causadas pela articulação do corpo e o impacto resultante na aparência causado pelo transporte de luz. Mudanças na pose do corpo podem alterar drasticamente a orientação das superfícies corporais em relação às luzes, resultando em mudanças de aparência locais devido a alterações nas funções locais de transporte de luz, bem como mudanças não locais devido à oclusão entre partes do corpo. Para lidar com isso, decomponemos o transporte de luz em efeitos locais e não locais. Mudanças de aparência locais são modeladas usando harmônicos zonais aprendíveis para transferência de radiância difusa. Ao contrário dos harmônicos esféricos, os harmônicos zonais são altamente eficientes para girar sob articulação. Isso nos permite aprender a transferência de radiância difusa em um quadro de coordenadas local, que separa a transferência de radiância local da articulação do corpo. Para considerar mudanças de aparência não locais, introduzimos uma rede de sombras que prevê sombras dadas as irradiâncias de entrada pré-computadas em uma malha base. Isso facilita a aprendizagem de sombreamentos não locais entre as partes do corpo. Por fim, usamos uma abordagem de sombreamento diferido para modelar a transferência de radiância especular e capturar melhor reflexos e destaques, como brilhos nos olhos. Demonstramos que nossa abordagem modela com sucesso tanto o transporte de luz local quanto não local necessário para avatares de corpo inteiro reluzentes, com uma capacidade de generalização superior sob condições de iluminação inovadoras e poses não vistas.
Os sistemas de saúde geram continuamente vastas quantidades de registros eletrônicos de saúde (EHRs), comumente armazenados no padrão de Recursos de Interoperabilidade Rápida em Saúde (FHIR). Apesar da riqueza de informações nesses registros, sua complexidade e volume tornam difícil para os usuários recuperar e interpretar insights de saúde cruciais. Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) oferecem uma solução, possibilitando a resposta semântica a perguntas (QA) sobre dados médicos, permitindo que os usuários interajam com seus registros de saúde de forma mais eficaz. No entanto, garantir privacidade e conformidade requer implantações locais e privadas de LLMs. Este artigo propõe uma abordagem inovadora para QA semântico sobre EHRs, identificando primeiro os recursos FHIR mais relevantes para uma consulta do usuário (Tarefa 1) e respondendo subsequentemente à consulta com base nesses recursos (Tarefa 2). Exploramos o desempenho de LLMs ajustados finamente hospedados de forma privada, avaliando-os em comparação com modelos de referência como GPT-4 e GPT-4o. Nossos resultados demonstram que os LLMs ajustados finamente, embora 250 vezes menores em tamanho, superam os modelos da família GPT-4 em 0,55% no escore F1 na Tarefa 1 e em 42% na Tarefa Meteor na Tarefa 2. Além disso, examinamos aspectos avançados do uso de LLMs, incluindo ajuste fino sequencial, autoavaliação do modelo (avaliação narcisista) e o impacto do tamanho dos dados de treinamento no desempenho. Os modelos e conjuntos de dados estão disponíveis aqui: https://huggingface.co/genloop
Os avanços recentes em modelos multimodais grandes (LMMs) reconheceram o enraizamento refinado como um fator imperativo para a compreensão visual e diálogo. No entanto, os benefícios de tal representação em LMMs são limitados ao domínio de imagens naturais, e esses modelos têm baixo desempenho para sensoriamento remoto (RS). A vista aérea distinta, a variação de escala e a presença de objetos pequenos em imagens de alta resolução de RS apresentam um desafio único na compreensão em nível de região. Além disso, o desenvolvimento da capacidade de conversação enraizada de LMMs dentro de RS é prejudicado pela falta de dados enraizados granulares específicos do domínio de RS. Para abordar essas limitações, propomos o GeoPixel - o primeiro RS-LMM de alta resolução de ponta a ponta que suporta o enraizamento em nível de pixel. Essa capacidade permite percepção visual refinada gerando máscaras entrelaçadas na conversa. O GeoPixel suporta até resolução HD 4K em qualquer proporção, ideal para análise de imagens de RS de alta precisão. Para apoiar a geração de conversas enraizadas (GCG) em imagens de RS, criamos um conjunto de dados visualmente enraizado, o GeoPixelD, por meio de um pipeline semi-automatizado que utiliza marcações de conjunto e prioridades espaciais adaptadas para dados de RS para controlar metodicamente o processo de geração de dados. O GeoPixel demonstra desempenho superior na compreensão em nível de pixel, superando os LMMs existentes em tarefas de segmentação de alvos únicos e múltiplos. Nossos estudos de ablação metodológica validam a eficácia de cada componente na arquitetura geral. Nosso código e dados serão publicamente divulgados.
Os modelos de base visual, em particular a família ViT, revolucionaram a compreensão de imagens ao fornecer recursos semânticos ricos. No entanto, apesar de seu sucesso na compreensão 2D, suas habilidades em compreender relacionamentos espaciais 3D ainda não estão claras. Neste trabalho, avaliamos e aprimoramos a consciência 3D dos modelos baseados em ViT. Começamos avaliando sistematicamente sua capacidade de aprender recursos 3D equivariantes, examinando especificamente a consistência das incorporações semânticas em diferentes pontos de vista. Nossas descobertas indicam que uma melhor equivariância 3D leva a um melhor desempenho em várias tarefas subsequentes, incluindo estimativa de pose, rastreamento e transferência semântica. Com base nessa percepção, propomos uma estratégia de ajuste simples, porém eficaz, com base em correspondências 3D, que aprimora significativamente a compreensão de correspondências 3D dos modelos de visão existentes. Notavelmente, mesmo o ajuste fino em um único objeto por apenas uma iteração resulta em ganhos de desempenho substanciais. Todo o código e recursos estarão disponíveis publicamente para apoiar futuros avanços em modelos de visão conscientes de 3D. Nosso código está disponível em https://github.com/qq456cvb/3DCorrEnhance.
A tecnologia de provador virtual (VTON) tem ganhado atenção devido ao seu potencial para transformar o varejo online, permitindo a visualização realista de roupas em imagens e vídeos. No entanto, a maioria dos métodos existentes enfrenta dificuldades para obter resultados de alta qualidade em tarefas de provação de imagem e vídeo, especialmente em cenários de vídeo longos. Neste trabalho, apresentamos o CatV2TON, um método de provador virtual baseado em visão (V2TON) simples e eficaz que suporta tanto tarefas de provação de imagem quanto de vídeo com um único modelo de transformador de difusão. Ao concatenar temporalmente as entradas de vestuário e pessoa e treinar com uma mistura de conjuntos de dados de imagem e vídeo, o CatV2TON alcança um desempenho robusto de provação em configurações estáticas e dinâmicas. Para uma geração eficiente de vídeos longos, propomos uma estratégia de inferência baseada em clipes sobrepostos que utiliza orientação de quadro sequencial e Normalização Adaptativa de Clipes (AdaCN) para manter consistência temporal com demandas de recursos reduzidas. Também apresentamos o ViViD-S, um conjunto de dados refinado de provação de vídeo, obtido filtrando quadros de costas e aplicando suavização de máscara 3D para uma consistência temporal aprimorada. Experimentos abrangentes demonstram que o CatV2TON supera os métodos existentes em tarefas de provação de imagem e vídeo, oferecendo uma solução versátil e confiável para provas virtuais realistas em diversos cenários.
No processo de aquisição de imagens, várias formas de degradação, incluindo ruído, neblina e chuva, são frequentemente introduzidas. Essas degradações geralmente surgem das limitações inerentes das câmeras ou de condições ambientais desfavoráveis. Para recuperar imagens limpas a partir de versões degradadas, inúmeros métodos especializados de restauração foram desenvolvidos, cada um visando um tipo específico de degradação. Recentemente, algoritmos "tudo-em-um" têm recebido atenção significativa ao abordar diferentes tipos de degradações dentro de um único modelo sem exigir informações prévias sobre o tipo de degradação de entrada. No entanto, esses métodos operam puramente no domínio espacial e não exploram as distintas variações de frequência inerentes a diferentes tipos de degradação. Para abordar essa lacuna, propomos uma rede adaptativa de restauração de imagens "tudo-em-um" baseada em mineração e modulação de frequência. Nossa abordagem é motivada pela observação de que diferentes tipos de degradação impactam o conteúdo da imagem em diferentes subfaixas de frequência, exigindo tratamentos distintos para cada tarefa de restauração. Especificamente, primeiro extraímos informações de baixa e alta frequência dos recursos de entrada, guiados pelos espectros adaptativamente desacoplados da imagem degradada. As características extraídas são então moduladas por um operador bidirecional para facilitar interações entre diferentes componentes de frequência. Por fim, as características moduladas são mescladas ao input original para uma restauração progressivamente guiada. Com essa abordagem, o modelo alcança uma reconstrução adaptativa ao enfatizar as subfaixas de frequência informativas de acordo com diferentes degradações de entrada. Experimentos extensivos demonstram que o método proposto alcança desempenho de ponta em diferentes tarefas de restauração de imagem, incluindo remoção de ruído, desembaçamento, remoção de chuva, desfocagem de movimento e melhoria de imagens com pouca luz. Nosso código está disponível em https://github.com/c-yn/AdaIR.
Embora os métodos de restauração de imagem baseados em aprendizado tenham avançado significativamente, ainda enfrentam dificuldades na generalização limitada para cenários do mundo real devido à grande diferença de domínio causada pelo treinamento em dados sintéticos. Métodos existentes abordam essa questão melhorando os pipelines de síntese de dados, estimando kernels de degradação, empregando aprendizado interno profundo e realizando adaptação de domínio e regularização. Métodos anteriores de adaptação de domínio buscaram reduzir a diferença de domínio aprendendo conhecimento invariante de domínio no espaço de características ou de pixels. No entanto, essas técnicas frequentemente enfrentam dificuldades para se estender a tarefas de visão de baixo nível dentro de um framework estável e compacto. Neste artigo, demonstramos que é possível realizar adaptação de domínio por meio do espaço de ruído usando modelos de difusão. Em particular, ao aproveitar a propriedade única de como entradas condicionais auxiliares influenciam o processo de remoção de ruído em várias etapas, derivamos uma perda de difusão significativa que orienta o modelo de restauração na progressiva alinhamento de saídas restauradas sintéticas e do mundo real com uma distribuição limpa alvo. Referimo-nos a este método como adaptação por remoção de ruído. Para evitar atalhos durante o treinamento conjunto, apresentamos estratégias cruciais, como camada de reorganização de canais e aprendizado contrastivo de troca residual no modelo de difusão. Elas borram implicitamente as fronteiras entre dados sintéticos condicionados e reais e impedem a dependência do modelo em características facilmente distinguíveis. Resultados experimentais em três tarefas clássicas de restauração de imagem, a saber, remoção de ruído, desfocagem e remoção de chuva, demonstram a eficácia do método proposto.