Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Seed-TTS, uma família de modelos autoregressivos de grande escala para conversão de texto em fala (TTS) capazes de gerar fala virtualmente indistinguível da fala humana. O Seed-TTS serve como um modelo base para geração de fala e se destaca no aprendizado de fala em contexto, alcançando desempenho em similaridade de voz e naturalidade que corresponde à fala humana real em avaliações tanto objetivas quanto subjetivas. Com ajuste fino, alcançamos pontuações subjetivas ainda mais altas nessas métricas. O Seed-TTS oferece uma superior controlabilidade sobre diversos atributos de fala, como emoção, e é capaz de gerar fala altamente expressiva e diversa para falantes em cenários reais. Além disso, propomos um método de auto-distilação para fatorização de fala, bem como uma abordagem de aprendizado por reforço para aprimorar a robustez do modelo, a similaridade de voz e a controlabilidade. Adicionalmente, apresentamos uma variante não-autoregressiva (NAR) do modelo Seed-TTS, denominada Seed-TTS_DiT, que utiliza uma arquitetura totalmente baseada em difusão. Diferente de sistemas TTS baseados em NAR anteriores, o Seed-TTS_DiT não depende de durações de fonemas pré-estimadas e realiza a geração de fala por meio de processamento de ponta a ponta. Demonstramos que essa variante alcança desempenho comparável à variante baseada em modelo de linguagem e destacamos sua eficácia na edição de fala. Encorajamos os leitores a ouvir demonstrações em https://bytedancespeech.github.io/seedtts_tech_report.
Exploramos a quantificação de incerteza em modelos de linguagem de grande escala (LLMs), com o objetivo de identificar quando a incerteza nas respostas dadas a uma consulta é elevada. Consideramos simultaneamente tanto as incertezas epistêmicas quanto as aleatórias, onde a primeira decorre da falta de conhecimento sobre a verdade fundamental (como fatos ou a linguagem), e a segunda surge de aleatoriedade irredutível (como múltiplas respostas possíveis). Em particular, derivamos uma métrica baseada na teoria da informação que permite detectar de forma confiável quando apenas a incerteza epistêmica é elevada, caso em que a saída do modelo é não confiável. Essa condição pode ser calculada com base apenas na saída do modelo obtida por meio de um prompt iterativo especial baseado nas respostas anteriores. Tal quantificação, por exemplo, permite detectar alucinações (casos em que a incerteza epistêmica é alta) tanto em respostas únicas quanto em respostas múltiplas. Isso contrasta com muitas estratégias padrão de quantificação de incerteza (como o limiar da log-verossimilhança de uma resposta), onde alucinações no caso de múltiplas respostas não podem ser detectadas. Realizamos uma série de experimentos que demonstram a vantagem de nossa formulação. Além disso, nossas investigações lançam luz sobre como as probabilidades atribuídas a uma determinada saída por um LLM podem ser amplificadas por prompts iterativos, o que pode ser de interesse independente.
Tanto os métodos online quanto offline de RLHF, como PPO e DPO, têm sido extremamente bem-sucedidos em alinhar a IA com as preferências humanas. Apesar de seu sucesso, os métodos existentes sofrem de um problema fundamental: sua solução ótima é altamente dependente da tarefa (ou seja, não é robusta a tarefas fora da distribuição (OOD)). Aqui, abordamos esse desafio propondo o Self-Improving Robust Preference Optimization (SRPO), uma estrutura prática e matematicamente fundamentada de RLHF offline que é completamente robusta a mudanças na tarefa. A ideia central do SRPO é enquadrar o problema de aprendizado a partir de preferências humanas como um processo de autoaperfeiçoamento, que pode ser expresso matematicamente em termos de um objetivo min-max que visa a otimização conjunta da política de autoaperfeiçoamento e da política gerativa de forma adversarial. A solução para esse problema de otimização é independente da tarefa de treinamento e, portanto, é robusta a suas mudanças. Em seguida, mostramos que esse objetivo pode ser reexpresso na forma de uma perda offline não adversarial, que pode ser otimizada usando técnicas padrão de otimização supervisionada em escala, sem a necessidade de um modelo de recompensa ou inferência online. Demonstramos a eficácia do SRPO em termos de Taxa de Vitória da IA (WR) contra conclusões humanas (GOLD). Em particular, quando o SRPO é avaliado no conjunto de dados OOD XSUM, ele supera o renomado DPO por uma margem clara de 15% após 5 auto-revisões, alcançando uma WR de 90%.
A geração de vídeo a partir de texto tem ficado atrás da síntese de imagem a partir de texto em termos de qualidade e diversidade devido à complexidade da modelagem espaço-temporal e à limitação de conjuntos de dados vídeo-texto. Este artigo apresenta o I4VGen, uma estrutura de inferência de difusão de vídeo sem necessidade de treinamento e de fácil integração, que aprimora a geração de vídeo a partir de texto ao aproveitar técnicas robustas de imagem. Especificamente, seguindo a abordagem texto-para-imagem-para-vídeo, o I4VGen decompõe a geração de vídeo a partir de texto em dois estágios: síntese de imagem âncora e síntese de vídeo guiada pela imagem âncora. Correspondentemente, um pipeline de geração-seleção bem projetado é empregado para alcançar uma imagem âncora visualmente realista e semanticamente fiel, e uma inovadora Amostragem de Distilação de Pontuação de Vídeo Invariante ao Ruído é incorporada para animar a imagem em um vídeo dinâmico, seguida por um processo de regeneração de vídeo para refinar o resultado. Essa estratégia de inferência mitiga efetivamente o problema prevalente de razão sinal-ruído terminal não nula. Avaliações extensivas mostram que o I4VGen não apenas produz vídeos com maior realismo visual e fidelidade textual, mas também se integra perfeitamente aos modelos existentes de difusão de imagem para vídeo, melhorando assim a qualidade geral do vídeo.
Os principais eixos de interesse em modelos de difusão para geração de imagens são a qualidade da imagem, a quantidade de variação nos resultados e o quão bem os resultados se alinham com uma condição dada, por exemplo, um rótulo de classe ou um prompt de texto. A popular abordagem de orientação sem classificador utiliza um modelo incondicional para guiar um modelo condicional, resultando em um melhor alinhamento com o prompt e em imagens de maior qualidade, mas à custa de uma redução na variação. Esses efeitos parecem intrinsecamente entrelaçados e, portanto, difíceis de controlar. Fazemos a observação surpreendente de que é possível obter controle desacoplado sobre a qualidade da imagem sem comprometer a quantidade de variação, guiando a geração usando uma versão menor e menos treinada do próprio modelo, em vez de um modelo incondicional. Isso leva a melhorias significativas na geração de imagens no ImageNet, estabelecendo recordes de FID de 1,01 para 64x64 e 1,25 para 512x512, utilizando redes publicamente disponíveis. Além disso, o método também é aplicável a modelos de difusão incondicionais, melhorando drasticamente sua qualidade.
Os avanços recentes em Inteligência Artificial (IA) têm sido amplamente impulsionados pela escalabilidade. Na Robótica, a escalabilidade é dificultada pela falta de acesso a grandes conjuntos de dados robóticos. Defendemos o uso de simulação física realista como um meio de escalar ambientes, tarefas e conjuntos de dados para métodos de aprendizado de robôs. Apresentamos o RoboCasa, uma estrutura de simulação em larga escala para treinar robôs generalistas em ambientes cotidianos. O RoboCasa apresenta cenas realistas e diversificadas, com foco em ambientes de cozinha. Fornecemos milhares de ativos 3D em mais de 150 categorias de objetos e dezenas de móveis e eletrodomésticos interativos. Enriquecemos o realismo e a diversidade de nossa simulação com ferramentas de IA generativa, como ativos de objetos de modelos texto-para-3D e texturas de ambiente de modelos texto-para-imagem. Projetamos um conjunto de 100 tarefas para avaliação sistemática, incluindo tarefas compostas geradas com a orientação de modelos de linguagem de grande escala. Para facilitar o aprendizado, fornecemos demonstrações humanas de alta qualidade e integramos métodos de geração automática de trajetórias para ampliar substancialmente nossos conjuntos de dados com o mínimo de esforço humano. Nossos experimentos mostram uma clara tendência de escalabilidade no uso de dados robóticos gerados sinteticamente para aprendizado por imitação em larga escala e demonstram grande potencial no aproveitamento de dados de simulação em tarefas do mundo real. Vídeos e código de código aberto estão disponíveis em https://robocasa.ai/.
No campo de geração de vídeos de retratos, o uso de imagens únicas para gerar vídeos de retratos tem se tornado cada vez mais prevalente. Uma abordagem comum envolve a utilização de modelos generativos para aprimorar adaptadores visando uma geração controlada. No entanto, os sinais de controle (por exemplo, texto, áudio, imagem de referência, pose, mapa de profundidade, etc.) podem variar em intensidade. Dentre esses, condições mais fracas frequentemente lutam para serem eficazes devido à interferência de condições mais fortes, o que representa um desafio no equilíbrio dessas condições. Em nosso trabalho sobre geração de vídeos de retratos, identificamos sinais de áudio como particularmente fracos, muitas vezes ofuscados por sinais mais fortes, como a pose facial e a imagem de referência. No entanto, o treinamento direto com sinais fracos frequentemente leva a dificuldades de convergência. Para abordar isso, propomos o V-Express, um método simples que equilibra diferentes sinais de controle por meio do treinamento progressivo e da operação de dropout condicional. Nosso método habilita gradualmente o controle eficaz por condições fracas, alcançando assim capacidades de geração que consideram simultaneamente a pose facial, a imagem de referência e o áudio. Os resultados experimentais demonstram que nosso método pode gerar efetivamente vídeos de retratos controlados por áudio. Além disso, uma solução potencial é fornecida para o uso simultâneo e eficaz de condições de intensidades variadas.
Recentemente, modelos de difusão de vídeo surgiram como ferramentas generativas expressivas para a criação de conteúdo de vídeo de alta qualidade, facilmente acessíveis a usuários em geral. No entanto, esses modelos frequentemente não oferecem controle preciso sobre as poses da câmera para a geração de vídeos, limitando a expressão da linguagem cinematográfica e o controle do usuário. Para resolver esse problema, introduzimos o CamCo, que permite um controle refinado da pose da câmera para a geração de vídeos a partir de imagens. Equipamos um gerador de vídeo a partir de imagens pré-treinado com entradas de pose da câmera parametrizadas com precisão usando coordenadas de Plücker. Para melhorar a consistência 3D nos vídeos produzidos, integramos um módulo de atenção epipolar em cada bloco de atenção que impõe restrições epipolares aos mapas de características. Além disso, ajustamos o CamCo em vídeos do mundo real com poses de câmera estimadas por meio de algoritmos de estrutura a partir do movimento, para melhor sintetizar o movimento dos objetos. Nossos experimentos mostram que o CamCo melhora significativamente a consistência 3D e as capacidades de controle da câmera em comparação com modelos anteriores, enquanto gera de forma eficaz movimentos plausíveis dos objetos. Página do projeto: https://ir1d.github.io/CamCo/