Artigos de pesquisa em IA selecionados diariamente com traduções
À medida que os Modelos de Linguagem de Grande Escala (LLMs) evoluem rapidamente, fornecer feedback preciso e supervisão escalável sobre suas saídas torna-se um problema urgente e crítico. Aproveitar LLMs como modelos de crítica para alcançar supervisão automatizada é uma solução promissora. Neste trabalho, nos concentramos em estudar e aprimorar a capacidade de crítica matemática dos LLMs. Atualmente, os críticos baseados em LLMs fornecem críticas muito superficiais em cada etapa, resultando em baixa precisão de julgamento e dificuldade para oferecer feedback suficiente para que o gerador LLM corrija erros. Para resolver esse problema, propomos uma estrutura inovadora e eficaz em duas etapas para desenvolver críticos LLMs capazes de deliberadamente criticar cada etapa de raciocínio em soluções matemáticas. Na primeira etapa, utilizamos o Qwen2.5-72B-Instruct para gerar 4,5 mil críticas de longo formato como dados iniciais para ajuste supervisionado. Cada crítica inicial consiste em críticas deliberadas passo a passo que incluem verificações de múltiplas perspectivas, bem como críticas aprofundadas das críticas iniciais para cada etapa de raciocínio. Em seguida, realizamos aprendizado por reforço no modelo ajustado, utilizando dados rotulados por humanos do PRM800K ou nossos dados anotados automaticamente obtidos por meio de estimativa de correção baseada em amostragem de Monte Carlo, para incentivar ainda mais sua capacidade de crítica. Nosso modelo de crítica desenvolvido com base no Qwen2.5-7B-Instruct não apenas supera significativamente os críticos LLMs existentes (incluindo modelos do mesmo tamanho, como o DeepSeek-R1-distill e o GPT-4o) em vários benchmarks de identificação de erros, mas também ajuda de forma mais eficaz o gerador LLM a refinar etapas errôneas por meio de feedback mais detalhado.
O Vídeo Generativo Interativo (IGV) emergiu como uma tecnologia crucial em resposta à crescente demanda por conteúdo de vídeo interativo e de alta qualidade em diversos domínios. Neste artigo, definimos IGV como uma tecnologia que combina capacidades generativas para produzir conteúdo de vídeo diversificado e de alta qualidade com recursos interativos que permitem o engajamento do usuário por meio de sinais de controle e feedback responsivo. Examinamos o cenário atual das aplicações de IGV, focando em três grandes domínios: 1) jogos, onde o IGV possibilita exploração infinita em mundos virtuais; 2) IA incorporada, onde o IGV atua como um sintetizador de ambientes com consciência física para treinar agentes em interação multimodal com cenas em evolução dinâmica; e 3) direção autônoma, onde o IGV fornece capacidades de simulação em circuito fechado para testes e validação de segurança crítica. Para orientar o desenvolvimento futuro, propomos um framework abrangente que decompõe um sistema IGV ideal em cinco módulos essenciais: Geração, Controle, Memória, Dinâmica e Inteligência. Além disso, analisamos sistematicamente os desafios técnicos e as direções futuras para a realização de cada componente de um sistema IGV ideal, como alcançar geração em tempo real, habilitar controle de domínio aberto, manter coerência de longo prazo, simular física precisa e integrar raciocínio causal. Acreditamos que essa análise sistemática facilitará pesquisas e desenvolvimentos futuros no campo do IGV, avançando a tecnologia em direção a aplicações mais sofisticadas e práticas.
Avanços recentes em modelos de linguagem de grande escala demonstraram como a cadeia de pensamento (CoT, do inglês "chain-of-thought") e o aprendizado por reforço (RL, do inglês "reinforcement learning") podem melhorar o desempenho. No entanto, a aplicação dessas estratégias de raciocínio no domínio de geração visual permanece amplamente inexplorada. Neste artigo, apresentamos o T2I-R1, um novo modelo de geração de texto para imagem aprimorado por raciocínio, impulsionado por RL com um processo de CoT em dois níveis. Especificamente, identificamos dois níveis de CoT que podem ser utilizados para aprimorar diferentes estágios da geração: (1) o CoT no nível semântico, para o planejamento de alto nível do prompt, e (2) o CoT no nível de tokens, para o processamento de baixo nível de pixels durante a geração patch por patch. Para melhor coordenar esses dois níveis de CoT, introduzimos o BiCoT-GRPO com um conjunto de recompensas de geração, que otimiza de forma integrada ambos os CoTs de geração dentro do mesmo passo de treinamento. Ao aplicar nossas estratégias de raciocínio ao modelo de base, Janus-Pro, alcançamos um desempenho superior com uma melhoria de 13% no T2I-CompBench e de 19% no benchmark WISE, superando até mesmo o modelo state-of-the-art FLUX.1. O código está disponível em: https://github.com/CaraJ7/T2I-R1.
Muitos métodos para melhorar agentes de Modelos de Linguagem de Grande Escala (LLMs) em tarefas de tomada de decisão sequencial dependem de engenharia de conhecimento específica para a tarefa—como ajuste de prompts, exemplos contextuais selecionados ou espaços de observação e ação personalizados. Usando essas abordagens, o desempenho do agente melhora com a qualidade ou quantidade de engenharia de conhecimento investida. Em vez disso, investigamos como os agentes LLMs podem melhorar automaticamente seu desempenho aprendendo no contexto a partir de suas próprias experiências bem-sucedidas em tarefas semelhantes. Em vez de depender de engenharia de conhecimento específica para a tarefa, focamos na construção e refinamento de um banco de dados de exemplos autogerados. Demonstramos que mesmo uma acumulação ingênua de trajetórias bem-sucedidas em tarefas de treinamento aumenta o desempenho em testes em três benchmarks: ALFWorld (73% para 89%), Wordcraft (55% para 64%) e InterCode-SQL (75% para 79%)—igualando o desempenho que o agente inicial alcança se permitido duas a três tentativas por tarefa. Em seguida, introduzimos duas extensões: (1) seleção no nível do banco de dados por meio de treinamento baseado em população para identificar coleções de exemplos de alto desempenho, e (2) seleção no nível de exemplos que retém trajetórias individuais com base em sua utilidade empírica como exemplos contextuais. Essas extensões aprimoram ainda mais o desempenho, alcançando 91% no ALFWorld—igualando abordagens mais complexas que empregam componentes e prompts específicos para a tarefa. Nossos resultados demonstram que a construção automática de um banco de dados de trajetórias oferece uma alternativa convincente à engenharia de conhecimento intensiva em mão de obra.
A sincronização labial, conhecida como a tarefa de alinhar os movimentos dos lábios em um vídeo existente com um novo áudio de entrada, é tipicamente enquadrada como uma variante mais simples da animação facial impulsionada por áudio. No entanto, além de sofrer com os problemas usuais na geração de cabeças falantes (por exemplo, consistência temporal), a sincronização labial apresenta desafios significativos, como vazamento de expressão do vídeo de entrada e oclusões faciais, que podem impactar severamente aplicações do mundo real, como dublagem automatizada, mas que são frequentemente negligenciados em trabalhos existentes. Para abordar essas deficiências, apresentamos o KeySync, um framework de dois estágios que resolve com sucesso o problema de consistência temporal, ao mesmo tempo em que incorpora soluções para vazamento e oclusões usando uma estratégia de mascaramento cuidadosamente projetada. Mostramos que o KeySync alcança resultados de ponta na reconstrução labial e na sincronização cruzada, melhorando a qualidade visual e reduzindo o vazamento de expressão de acordo com o LipLeak, nossa nova métrica de vazamento. Além disso, demonstramos a eficácia de nossa nova abordagem de mascaramento no tratamento de oclusões e validamos nossas escolhas arquitetônicas por meio de vários estudos de ablação. O código e os pesos do modelo podem ser encontrados em https://antonibigata.github.io/KeySync.
Recentemente, modelos de raciocínio de longa duração alcançaram desempenho forte em tarefas complexas de raciocínio, mas frequentemente incorrem em sobrecarga substancial de inferência, tornando a eficiência uma preocupação crítica. Nossa análise empírica revela que o benefício de usar o Long-CoT varia entre os problemas: enquanto alguns problemas exigem raciocínio elaborado, outros não mostram melhoria, ou até mesmo apresentam precisão reduzida. Isso motiva estratégias de raciocínio adaptativas que ajustam a profundidade do raciocínio à entrada. No entanto, trabalhos anteriores reduzem principalmente a redundância dentro de caminhos de raciocínio longos, limitando a exploração de estratégias mais eficientes além do paradigma Long-CoT. Para abordar isso, propomos uma nova estrutura de duas etapas para raciocínio adaptativo e eficiente. Primeiro, construímos um modelo de raciocínio híbrido ao mesclar modelos CoT longos e curtos para permitir estilos de raciocínio diversos. Segundo, aplicamos treinamento de preferência bi-nível para guiar o modelo a selecionar estilos de raciocínio adequados (nível de grupo) e preferir raciocínio conciso e correto dentro de cada grupo de estilo (nível de instância). Experimentos demonstram que nosso método reduz significativamente os custos de inferência em comparação com outras abordagens de linha de base, mantendo o desempenho. Notavelmente, em cinco conjuntos de dados matemáticos, o comprimento médio do raciocínio é reduzido em mais de 50%, destacando o potencial de estratégias adaptativas para otimizar a eficiência do raciocínio em modelos de linguagem grandes. Nosso código estará disponível em breve em https://github.com/StarDewXXX/AdaR1.
Histórias morais são um veículo consagrado pelo tempo para transmitir valores, mas a PLN moderna carece de um grande corpus estruturado que associe narrativas coerentes a lições éticas explícitas. Nós preenchemos essa lacuna com o TF1-EN-3M, o primeiro conjunto de dados aberto de três milhões de fábulas em inglês geradas exclusivamente por modelos ajustados por instrução com no máximo 8 bilhões de parâmetros. Cada história segue um arcabouço de seis elementos (personagem -> traço -> cenário -> conflito -> resolução -> moral), produzido por um mecanismo de prompts combinatórios que garante fidelidade ao gênero enquanto abrange um amplo espaço temático. Um pipeline de avaliação híbrido combina (i) um crítico baseado em GPT que pontua gramática, criatividade, clareza moral e aderência ao modelo com (ii) métricas de diversidade e legibilidade sem referência. Entre dez candidatos de pesos abertos, uma variante do Llama-3 com 8 bilhões de parâmetros oferece o melhor equilíbrio entre qualidade e velocidade, produzindo fábulas de alta pontuação em uma única GPU de consumo (<24 GB de VRAM) a aproximadamente 13,5 centavos por 1.000 fábulas. Disponibilizamos o conjunto de dados, código de geração, scripts de avaliação e metadados completos sob uma licença permissiva, permitindo reprodutibilidade exata e benchmarking de custos. O TF1-EN-3M abre caminhos para pesquisas em seguimento de instruções, inteligência narrativa, alinhamento de valores e IA educacional amigável para crianças, demonstrando que a narrativa moral em larga escala não requer mais modelos gigantes proprietários.
Modelos de Linguagem de Grande Escala (LLMs) transformaram a engenharia de software, mas sua aplicação em domínios de engenharia física ainda é pouco explorada. Este artigo avalia as capacidades dos LLMs no design de foguetes de alta potência por meio do RocketBench, um benchmark que conecta LLMs a simulações de foguetes de alta fidelidade. Testamos os modelos em duas tarefas de design de complexidade crescente: otimização de altitude alvo e desafios de pouso de precisão. Nossos resultados revelam que, embora os LLMs de última geração demonstrem um forte conhecimento básico de engenharia, eles têm dificuldade em iterar seus designs quando recebem resultados de simulação e, por fim, atingem um platô abaixo dos níveis de desempenho humano. No entanto, quando aprimorados com aprendizado por reforço (RL), mostramos que um modelo de 7B parâmetros supera tanto os modelos de base SoTA quanto os especialistas humanos. Esta pesquisa demonstra que LLMs treinados com RL podem servir como ferramentas eficazes para otimização de engenharia complexa, potencialmente transformando domínios de engenharia além do desenvolvimento de software.
Interfaces de script permitem que os usuários automatizem tarefas e personalizem fluxos de trabalho de software, mas a criação de scripts tradicionalmente exige conhecimento de programação e familiaridade com APIs específicas, o que impõe barreiras para muitos usuários. Embora os Modelos de Linguagem de Grande Escala (LLMs) possam gerar código a partir de consultas em linguagem natural, a geração de código em tempo de execução é severamente limitada devido a código não verificado, riscos de segurança, tempos de resposta mais longos e custos computacionais mais elevados. Para preencher essa lacuna, propomos um framework de simulação offline para criar um conjunto de habilidades específico para software, uma coleção de scripts verificados, explorando LLMs e guias de script disponíveis publicamente. Nosso framework consiste em dois componentes: (1) criação de tarefas, usando orientação funcional de cima para baixo e exploração de sinergia de APIs de baixo para cima para gerar tarefas úteis; e (2) geração de habilidades com tentativas, refinando e validando scripts com base no feedback de execução. Para navegar eficientemente pelo extenso cenário de APIs, introduzimos um modelo de previsão de links baseado em Redes Neurais de Grafos (GNN) para capturar a sinergia entre APIs, permitindo a geração de habilidades que envolvem APIs subutilizadas e expandindo a diversidade do conjunto de habilidades. Experimentos com o Adobe Illustrator demonstram que nosso framework melhora significativamente as taxas de sucesso na automação, reduz o tempo de resposta e economiza custos de tokens em tempo de execução em comparação com a geração tradicional de código em tempo de execução. Esta é a primeira tentativa de usar interfaces de script de software como um campo de teste para sistemas baseados em LLMs, destacando as vantagens de aproveitar o feedback de execução em um ambiente controlado e oferecendo insights valiosos sobre o alinhamento das capacidades de IA com as necessidades dos usuários em domínios de software especializados.
Imagine estar em um espaço lotado onde as pessoas falam um idioma diferente e ter dispositivos auditivos que transformam o ambiente sonoro em sua língua nativa, preservando as pistas espaciais de todos os falantes. Apresentamos a tradução de fala espacial, um conceito inovador para dispositivos auditivos que traduzem os falantes no ambiente do usuário, mantendo a direção e as características vocais únicas de cada falante na saída binaural. Para alcançar isso, enfrentamos vários desafios técnicos que abrangem separação cega de fontes, localização, tradução expressiva em tempo real e renderização binaural para preservar as direções dos falantes no áudio traduzido, enquanto alcançamos inferência em tempo real no chip Apple M2. Nossa avaliação de prova de conceito com um protótipo de fone de ouvido binaural mostra que, ao contrário dos modelos existentes, que falham na presença de interferência, alcançamos uma pontuação BLEU de até 22,01 ao traduzir entre idiomas, apesar da forte interferência de outros falantes no ambiente. Estudos com usuários confirmam ainda mais a eficácia do sistema na renderização espacial da fala traduzida em ambientes reverberantes do mundo real previamente não vistos. Dando um passo atrás, este trabalho marca o primeiro passo em direção à integração da percepção espacial na tradução de fala.
Aumento de dados é essencial em imagens médicas para melhorar a precisão de classificação, detecção de lesões e segmentação de órgãos em condições de dados limitados. No entanto, dois desafios significativos permanecem. Primeiro, uma lacuna de domínio pronunciada entre fotografias naturais e imagens médicas pode distorcer características críticas de doenças. Segundo, estudos de aumento em imagens médicas são fragmentados e limitados a tarefas ou arquiteturas únicas, deixando os benefícios de estratégias avançadas baseadas em mistura pouco claros. Para abordar esses desafios, propomos um framework de avaliação unificado com seis métodos de aumento baseados em mistura integrados a backbones tanto convolucionais quanto de transformadores em conjuntos de dados de ressonância magnética de tumores cerebrais e fundo de olho para doenças oculares. Nossas contribuições são três. (1) Introduzimos o MediAug, um benchmark abrangente e reproduzível para aumento avançado de dados em imagens médicas. (2) Avaliamos sistematicamente MixUp, YOCO, CropMix, CutMix, AugMix e SnapMix com backbones ResNet-50 e ViT-B. (3) Demonstramos através de extensos experimentos que o MixUp proporciona a maior melhoria na tarefa de classificação de tumores cerebrais para o ResNet-50 com 79,19% de precisão e o SnapMix proporciona a maior melhoria para o ViT-B com 99,44% de precisão, e que o YOCO proporciona a maior melhoria na tarefa de classificação de doenças oculares para o ResNet-50 com 91,60% de precisão e o CutMix proporciona a maior melhoria para o ViT-B com 97,94% de precisão. O código estará disponível em https://github.com/AIGeeksGroup/MediAug.
Os sensores visuais estão se tornando cada vez mais importantes nos Sistemas Inteligentes de Transporte (ITS) para monitoramento, gerenciamento e otimização do tráfego, à medida que o número de câmeras de rede continua a aumentar. No entanto, o rastreamento e a correspondência manual de objetos em múltiplas câmeras não sobrepostas apresentam desafios significativos em cenários de tráfego urbano em escala de cidade. Esses desafios incluem lidar com diversos atributos de veículos, oclusões, variações de iluminação, sombras e diferentes resoluções de vídeo. Para abordar essas questões, propomos uma estrutura eficiente e econômica baseada em aprendizado profundo para Rastreamento Multi-Objeto Multi-Câmera (MO-MCT). A estrutura proposta utiliza o Mask R-CNN para detecção de objetos e emprega a Supressão Não-Máxima (NMS) para selecionar objetos-alvo de detecções sobrepostas. A aprendizagem por transferência é utilizada para reidentificação, permitindo a associação e geração de trajetórias de veículos em múltiplas câmeras. Além disso, aproveitamos funções de perda e medidas de distância apropriadas para lidar com os desafios de oclusão, iluminação e sombra. O módulo final de identificação de solução realiza a extração de características usando o ResNet-152, acoplado ao rastreamento de veículos baseado no Deep SORT. A estrutura proposta é avaliada no conjunto de dados do 5º AI City Challenge (Track 3), que compreende 46 feeds de câmera. Dentre esses 46 fluxos de câmera, 40 são usados para treinamento e validação do modelo, enquanto os seis restantes são utilizados para teste do modelo. A estrutura proposta alcança um desempenho competitivo com uma pontuação IDF1 de 0,8289, e pontuações de precisão e recall de 0,9026 e 0,8527, respectivamente, demonstrando sua eficácia no rastreamento robusto e preciso de veículos.