Artigos de pesquisa em IA selecionados diariamente com traduções
Exploramos uma estratégia de busca evolutiva para escalonar o tempo de inferência computacional em Modelos de Linguagem Grandes. A abordagem proposta, Evolução da Mente, utiliza um modelo de linguagem para gerar, recombinar e refinar respostas candidatas. A abordagem proposta evita a necessidade de formalizar o problema de inferência subjacente sempre que um avaliador de solução está disponível. Controlando o custo de inferência, descobrimos que a Evolução da Mente supera significativamente outras estratégias de inferência, como Melhor-de-N e Revisão Sequencial, em tarefas de planejamento de linguagem natural. Nos benchmarks TravelPlanner e Natural Plan, a Evolução da Mente resolve mais de 98% das instâncias de problema usando o Gemini 1.5 Pro sem o uso de um resolvedor formal.
Apresentamos o PaSa, um agente avançado de Busca de Artigos alimentado por grandes modelos de linguagem. O PaSa pode tomar autonomamente uma série de decisões, incluindo invocar ferramentas de busca, ler artigos e selecionar referências relevantes, para finalmente obter resultados abrangentes e precisos para consultas acadêmicas complexas. Otimizamos o PaSa usando aprendizado por reforço com um conjunto de dados sintético, AutoScholarQuery, que inclui 35 mil consultas acadêmicas detalhadas e os artigos correspondentes provenientes de publicações de conferências de IA de alto nível. Além disso, desenvolvemos o RealScholarQuery, um benchmark que coleta consultas acadêmicas do mundo real para avaliar o desempenho do PaSa em cenários mais realistas. Apesar de ter sido treinado em dados sintéticos, o PaSa supera significativamente as bases de comparação existentes no RealScholarQuery, incluindo Google, Google Scholar, Google com GPT-4 para consultas parafraseadas, chatGPT (GPT-4o habilitado para busca), GPT-o1 e PaSa-GPT-4o (PaSa implementado através de prompt do GPT-4o). Notavelmente, o PaSa-7B supera a melhor base do Google, Google com GPT-4o, em 37,78% no recall@20 e 39,90% no recall@50. Também supera o PaSa-GPT-4o em 30,36% no recall e 4,25% na precisão. O modelo, conjuntos de dados e código estão disponíveis em https://github.com/bytedance/pasa.
Um dos métodos mais amplamente utilizados para avaliar LLMs são os testes de Questões de Múltipla Escolha (MCQ). Os benchmarks de MCQ permitem testar o conhecimento do LLM em quase qualquer tópico em escala, pois os resultados podem ser processados automaticamente. Para auxiliar na resposta do LLM, alguns exemplos chamados de poucas instâncias podem ser incluídos na solicitação. Além disso, o LLM pode ser solicitado a responder diretamente com a opção selecionada ou a fornecer primeiro o raciocínio e depois a resposta selecionada, o que é conhecido como cadeia de pensamento. Além de verificar se a resposta selecionada está correta, a avaliação pode analisar a probabilidade estimada pelo LLM de sua resposta como uma indicação da confiança do LLM na resposta. Neste artigo, estudamos como a confiança do LLM em sua resposta depende se o modelo foi solicitado a responder diretamente ou a fornecer o raciocínio antes de responder. Os resultados da avaliação de questões em uma ampla gama de tópicos em sete modelos diferentes mostram que os LLMs estão mais confiantes em suas respostas quando fornecem o raciocínio antes da resposta. Isso ocorre independentemente de a resposta selecionada estar correta. Nossa hipótese é que esse comportamento se deve ao raciocínio que modifica a probabilidade da resposta selecionada, já que o LLM prevê a resposta com base na pergunta de entrada e no raciocínio que sustenta a seleção feita. Portanto, as probabilidades estimadas pelo LLM parecem ter limitações intrínsecas que devem ser compreendidas para utilizá-las em procedimentos de avaliação. Curiosamente, o mesmo comportamento foi observado em humanos, para os quais explicar uma resposta aumenta a confiança em sua correção.
O estilo de desenho animado 2D é uma forma de arte proeminente na criação de personagens digitais, especialmente popular entre audiências mais jovens. Enquanto os avanços na tecnologia digital humana têm impulsionado extensas pesquisas em humanos digitais fotorrealistas e personagens 3D, os personagens de desenho animado interativos em 2D têm recebido relativamente menos atenção. Ao contrário de seus equivalentes em 3D, que exigem uma construção sofisticada e renderização intensiva de recursos, o Live2D, um formato amplamente utilizado para personagens de desenho animado em 2D, oferece uma alternativa mais eficiente, permitindo animar personagens 2D de uma maneira que simula movimentos 3D sem a necessidade de construir um modelo 3D completo. Além disso, o Live2D utiliza uma renderização leve em HTML5 (H5), melhorando tanto a acessibilidade quanto a eficiência. Neste relatório técnico, apresentamos o Textoon, um método inovador para gerar diversos personagens de desenho animado em 2D no formato Live2D com base em descrições de texto. O Textoon aproveita modelos de linguagem e visão de ponta para compreender as intenções textuais e gerar a aparência 2D, capaz de criar uma ampla variedade de personagens 2D impressionantes e interativos em um minuto. A página inicial do projeto é https://human3daigc.github.io/Textoon_webpage/.
Aprimorar modelos de linguagem grandes (LLMs) com APIs em tempo real pode ajudar a gerar respostas mais precisas e atualizadas. No entanto, a avaliação das capacidades de chamada de função dos LLMs em cenários do mundo real ainda é pouco explorada devido à complexidade da coleta e avaliação de dados. Neste trabalho, apresentamos o ComplexFuncBench, um benchmark para chamadas de função complexas em cinco cenários do mundo real. Comparado aos benchmarks existentes, o ComplexFuncBench abrange chamadas de função multi-etapas e restritas, que exigem preenchimento de parâmetros longos, raciocínio de valores de parâmetros e contexto longo de 128k. Além disso, propomos um framework automático, ComplexEval, para avaliar quantitativamente tarefas de chamada de função complexas. Através de experimentos abrangentes, demonstramos as deficiências dos LLMs de ponta em chamadas de função e sugerimos direções futuras para otimizar essas capacidades. Os dados e o código estão disponíveis em https://github.com/THUDM/ComplexFuncBench.
Apresentamos o X-Dyna, um novo pipeline baseado em difusão para animar uma única imagem humana usando expressões faciais e movimentos corporais derivados de um vídeo de referência, que gera dinâmicas realistas e contextualmente conscientes tanto para o sujeito quanto para o ambiente circundante. Construindo sobre abordagens anteriores centradas no controle de pose humana, o X-Dyna aborda deficiências-chave que causam a perda de detalhes dinâmicos, aprimorando as qualidades realistas das animações de vídeo humanas. No cerne de nossa abordagem está o Adaptador de Dinâmicas, um módulo leve que integra efetivamente o contexto de aparência de referência nas atenções espaciais da espinha dorsal de difusão, preservando a capacidade dos módulos de movimento em sintetizar detalhes dinâmicos fluidos e intrincados. Além do controle de pose corporal, conectamos um módulo de controle local ao nosso modelo para capturar expressões faciais desembaraçadas da identidade, facilitando a transferência precisa de expressão para realismo aprimorado em cenas animadas. Juntos, esses componentes formam um framework unificado capaz de aprender o movimento humano físico e a dinâmica natural da cena a partir de uma mistura diversificada de vídeos humanos e de cena. Avaliações qualitativas e quantitativas abrangentes demonstram que o X-Dyna supera os métodos de ponta, criando animações altamente realistas e expressivas. O código está disponível em https://github.com/bytedance/X-Dyna.
Este artigo investiga os desafios de desenvolver grandes modelos de linguagem (LLMs) proficientes tanto em compreensão multilíngue quanto em conhecimento médico. Demonstramos que simplesmente traduzir dados médicos não garante um desempenho forte em tarefas clínicas no idioma alvo. Nossos experimentos revelam que a combinação de idiomas ideal nos dados de treinamento varia significativamente entre diferentes tarefas médicas. Descobrimos que modelos maiores com proporções de idiomas cuidadosamente calibradas alcançam desempenho superior em tarefas clínicas no idioma nativo. Além disso, nossos resultados sugerem que depender exclusivamente do ajuste fino pode não ser a abordagem mais eficaz para incorporar novos conhecimentos linguísticos em LLMs. Em vez disso, métodos de pré-treinamento intensivos em dados e computacionalmente podem ainda ser necessários para alcançar um desempenho ótimo em ambientes médicos multilíngues. Essas descobertas fornecem orientações valiosas para a construção de sistemas de IA médica eficazes e inclusivos para diversas comunidades linguísticas.
A aplicação de redes generativas adversárias (GANs) avançou recentemente na super-resolução de fala (SR) com base em representações intermediárias como mel-espectrogramas. No entanto, os métodos de SR existentes, que geralmente dependem de redes treinadas de forma independente e concatenadas, podem resultar em representações inconsistentes e baixa qualidade de fala, especialmente em cenários fora do domínio. Neste trabalho, propomos o HiFi-SR, uma rede unificada que aproveita o treinamento adversarial de ponta a ponta para alcançar super-resolução de fala de alta fidelidade. Nosso modelo apresenta um gerador unificado transformador-convolucional projetado para lidar perfeitamente com a previsão de representações latentes e sua conversão em formas de onda de domínio temporal. A rede transformadora atua como um codificador poderoso, convertendo mel-espectrogramas de baixa resolução em representações de espaço latente, enquanto a rede convolucional amplia essas representações em formas de onda de alta resolução. Para aprimorar a fidelidade de alta frequência, incorporamos um discriminador multi-banda, multi-escala tempo-frequência, juntamente com uma perda de reconstrução mel multi-escala no processo de treinamento adversarial. O HiFi-SR é versátil, capaz de aumentar a taxa de amostragem de qualquer sinal de fala de entrada entre 4 kHz e 32 kHz para 48 kHz. Resultados experimentais demonstram que o HiFi-SR supera significativamente os métodos de SR de fala existentes em métricas objetivas e testes de preferência ABX, tanto em cenários dentro quanto fora do domínio (https://github.com/modelscope/ClearerVoice-Studio).
Apresentamos o GaussianAvatar-Editor, um framework inovador para edição baseada em texto de avatares de cabeça Gaussiana animáveis que podem ser totalmente controlados em expressão, pose e ponto de vista. Ao contrário da edição Gaussiana 3D estática, a edição de avatares Gaussianos animáveis 4D apresenta desafios relacionados à oclusão de movimento e inconsistência espaço-temporal. Para lidar com essas questões, propomos a Equação de Mistura Ponderada de Alfa (WABE). Essa função aprimora o peso de mistura dos Gaussians visíveis enquanto suprime a influência nos Gaussians não visíveis, lidando efetivamente com a oclusão de movimento durante a edição. Além disso, para melhorar a qualidade da edição e garantir consistência 4D, incorporamos o aprendizado adversarial condicional ao processo de edição. Essa estratégia ajuda a refinar os resultados editados e manter a consistência ao longo da animação. Ao integrar esses métodos, nosso GaussianAvatar-Editor alcança resultados fotorrealistas e consistentes na edição Gaussiana animável 4D. Realizamos experimentos abrangentes em diversos assuntos para validar a eficácia de nossas técnicas propostas, o que demonstra a superioridade de nossa abordagem em relação aos métodos existentes. Mais resultados e código estão disponíveis em: [Link do Projeto](https://xiangyueliu.github.io/GaussianAvatar-Editor/).