Artigos de pesquisa em IA selecionados diariamente com traduções
Os avanços recentes em modelagem generativa agora permitem a criação de conteúdo 4D (objetos 3D em movimento) controlado por prompts de texto. A geração 4D tem um grande potencial em aplicações como mundos virtuais, mídia e jogos, mas os métodos existentes oferecem controle limitado sobre a aparência e geometria do conteúdo gerado. Neste trabalho, introduzimos um método para animar objetos 3D fornecidos pelo usuário condicionando-os a prompts textuais para orientar a geração 4D, permitindo animações personalizadas enquanto mantemos a identidade do objeto original. Primeiramente, convertemos uma malha 3D em um Campo de Radiância Neural (NeRF) "estático" 4D que preserva os atributos visuais do objeto de entrada. Em seguida, animamos o objeto usando um modelo de difusão de Imagem para Vídeo conduzido por texto. Para melhorar o realismo do movimento, introduzimos um protocolo incremental de seleção de pontos de vista para amostrar perspectivas e promover movimentos realistas, e uma perda de Amostragem de Destilação de Pontuação (SDS) mascarada, que utiliza mapas de atenção para focar a otimização em regiões relevantes. Avaliamos nosso modelo em termos de coerência temporal, aderência aos prompts e fidelidade visual, e descobrimos que nosso método supera as bases que se baseiam em outras abordagens, alcançando melhorias de até três vezes na preservação de identidade medida pelos escores LPIPS, e equilibrando efetivamente a qualidade visual com o conteúdo dinâmico.
O notável desempenho de modelos como o OpenAI o1 pode ser atribuído à sua capacidade de emular um pensamento de longo prazo semelhante ao humano durante a inferência. Esses modelos empregam processos de cadeia de pensamento estendida (CoT), explorando múltiplas estratégias para aprimorar as capacidades de resolução de problemas. No entanto, uma questão crítica permanece: Como dimensionar inteligentemente e de forma eficiente os recursos computacionais durante os testes. Este artigo apresenta o primeiro estudo abrangente sobre o problema prevalente de pensar demais nesses modelos, onde recursos computacionais excessivos são alocados para problemas simples com benefícios mínimos. Introduzimos novas métricas de eficiência de ambas as perspectivas de resultado e processo para avaliar o uso racional de recursos computacionais por modelos semelhantes ao o1. Usando um paradigma de autoaprendizagem, propomos estratégias para mitigar o pensamento excessivo, otimizando os processos de raciocínio sem comprometer a precisão. Os resultados experimentais mostram que nossa abordagem reduz com sucesso a sobrecarga computacional, preservando o desempenho do modelo em uma variedade de conjuntos de testes com níveis de dificuldade variados, como GSM8K, MATH500, GPQA e AIME.
Apresentamos o TangoFlux, um modelo generativo eficiente de Texto-para-Áudio (TTA) com 515M parâmetros, capaz de gerar até 30 segundos de áudio a 44.1kHz em apenas 3.7 segundos em uma única GPU A40. Um desafio chave na alinhamento de modelos TTA reside na dificuldade de criar pares de preferência, uma vez que o TTA carece de mecanismos estruturados como recompensas verificáveis ou respostas padrão disponíveis para Modelos de Linguagem Grandes (LLMs). Para lidar com isso, propomos a Otimização de Preferência Classificada por Aprendizado de Contraste (CRPO), um novo framework que gera e otimiza iterativamente dados de preferência para aprimorar o alinhamento do TTA. Demonstramos que o conjunto de dados de preferência de áudio gerado usando o CRPO supera as alternativas existentes. Com este framework, o TangoFlux alcança desempenho de ponta em benchmarks objetivos e subjetivos. Disponibilizamos todo o código e modelos em código aberto para apoiar pesquisas futuras na geração de TTA.
Apresentamos o SWE-Gym, o primeiro ambiente para treinar agentes de engenharia de software do mundo real. O SWE-Gym contém 2.438 instâncias de tarefas de Python do mundo real, cada uma composta por uma base de código com um ambiente de execução executável, testes unitários e uma tarefa especificada em linguagem natural. Utilizamos o SWE-Gym para treinar agentes de engenharia de software baseados em modelos de linguagem, alcançando até 19% de ganhos absolutos na taxa de resolução nos populares conjuntos de testes SWE-Bench Verified e Lite. Também experimentamos com escalonamento no tempo de inferência através de verificadores treinados em trajetórias de agentes amostradas do SWE-Gym. Quando combinado com nossos agentes de SWE ajustados, alcançamos 32,0% e 26,0% no SWE-Bench Verified e Lite, respectivamente, refletindo um novo estado-da-arte para agentes de SWE de peso aberto. Para facilitar pesquisas adicionais, disponibilizamos publicamente o SWE-Gym, modelos e trajetórias de agentes.