Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem de grande escala se destacam na geração de código em nível de função e arquivo, mas a criação de repositórios completos do zero ainda representa um desafio fundamental. Esse processo exige planejamento coerente e confiável em estágios de proposta e implementação, enquanto a linguagem natural, devido à sua ambiguidade e verbosidade, é inadequada para representar fielmente estruturas de software complexas. Para resolver isso, introduzimos o Grafo de Planejamento de Repositório (RPG), uma representação persistente que unifica o planejamento em níveis de proposta e implementação, codificando capacidades, estruturas de arquivos, fluxos de dados e funções em um único grafo. O RPG substitui a linguagem natural ambígua por um blueprint explícito, permitindo planejamento de longo prazo e geração escalável de repositórios. Com base no RPG, desenvolvemos o ZeroRepo, um framework orientado a grafos para geração de repositórios do zero. Ele opera em três estágios: planejamento em nível de proposta e refinamento em nível de implementação para construir o grafo, seguido por geração de código guiada pelo grafo com validação de testes. Para avaliar esse cenário, construímos o RepoCraft, um benchmark com seis projetos do mundo real e 1.052 tarefas. No RepoCraft, o ZeroRepo produz repositórios com uma média de quase 36K LOC, aproximadamente 3,9 vezes o melhor baseline (Claude Code) e cerca de 64 vezes outros baselines. Ele atinge 81,5% de cobertura funcional e uma taxa de aprovação de 69,7%, superando o Claude Code em 27,3 e 35,8 pontos percentuais, respectivamente. Análises adicionais mostram que o RPG modela dependências complexas, permite planejamento progressivamente mais sofisticado por meio de escalabilidade quase linear e melhora a compreensão de repositórios por LLMs, acelerando assim a localização de agentes.
Modelos de Linguagem de Grande Escala (LLMs) multimodais unificados que podem tanto compreender quanto gerar conteúdo visual possuem um imenso potencial. No entanto, os modelos de código aberto existentes frequentemente sofrem com uma compensação de desempenho entre essas capacidades. Apresentamos o Manzano, uma estrutura unificada simples e escalável que reduz substancialmente essa tensão ao acoplar um tokenizador de imagens híbrido com uma receita de treinamento bem elaborada. Um único codificador visual compartilhado alimenta dois adaptadores leves que produzem embeddings contínuos para a compreensão de imagem para texto e tokens discretos para a geração de texto para imagem dentro de um espaço semântico comum. Um LLM autorregressivo unificado prevê semânticas de alto nível na forma de tokens de texto e imagem, com um decodificador de difusão auxiliar traduzindo posteriormente os tokens de imagem em pixels. A arquitetura, juntamente com uma receita de treinamento unificada sobre dados de compreensão e geração, permite o aprendizado conjunto escalável de ambas as capacidades. O Manzano alcança resultados de ponta entre os modelos unificados e é competitivo com modelos especializados, particularmente em avaliações ricas em texto. Nossos estudos mostram conflitos mínimos entre tarefas e ganhos consistentes com o aumento do tamanho do modelo, validando nossa escolha de design de um tokenizador híbrido.
Modelagem generativa, aprendizado de representação e classificação são três problemas centrais no aprendizado de máquina (ML), mas suas soluções de ponta (SoTA) permanecem amplamente desconexas. Neste artigo, questionamos: Um princípio unificado pode abordar todos os três? Tal unificação poderia simplificar pipelines de ML e promover maior sinergia entre tarefas. Introduzimos a Rede de Zonas Latentes (Latent Zoning Network - LZN) como um passo em direção a esse objetivo. Em sua essência, a LZN cria um espaço latente Gaussiano compartilhado que codifica informações em todas as tarefas. Cada tipo de dado (por exemplo, imagens, texto, rótulos) é equipado com um codificador que mapeia amostras para zonas latentes disjuntas e um decodificador que mapeia latentes de volta para os dados. As tarefas de ML são expressas como composições desses codificadores e decodificadores: por exemplo, a geração de imagens condicionada por rótulos usa um codificador de rótulos e um decodificador de imagens; a incorporação de imagens usa um codificador de imagens; a classificação usa um codificador de imagens e um decodificador de rótulos. Demonstramos o potencial da LZN em três cenários cada vez mais complexos: (1) A LZN pode aprimorar modelos existentes (geração de imagens): Quando combinada com o modelo de ponta Rectified Flow, a LZN melhora o FID no CIFAR10 de 2,76 para 2,59 - sem modificar o objetivo de treinamento. (2) A LZN pode resolver tarefas de forma independente (aprendizado de representação): A LZN pode implementar aprendizado de representação não supervisionado sem funções de perda auxiliares, superando os métodos seminal MoCo e SimCLR em 9,3% e 0,2%, respectivamente, na classificação linear subsequente no ImageNet. (3) A LZN pode resolver múltiplas tarefas simultaneamente (geração e classificação conjuntas): Com codificadores/decodificadores de imagens e rótulos, a LZN realiza ambas as tarefas conjuntamente por design, melhorando o FID e alcançando a precisão de classificação SoTA no CIFAR10. O código e os modelos treinados estão disponíveis em https://github.com/microsoft/latent-zoning-networks. O site do projeto está em https://zinanlin.me/blogs/latent_zoning_networks.html.
A criação de modelos 3D de alta fidelidade para ambientes internos é essencial para aplicações em design, realidade virtual e robótica. No entanto, a modelagem 3D manual continua sendo demorada e trabalhosa. Embora avanços recentes em IA generativa tenham possibilitado a síntese automatizada de cenas, os métodos existentes frequentemente enfrentam desafios ao equilibrar qualidade visual, diversidade, consistência semântica e controle do usuário. Um grande gargalo é a falta de um conjunto de dados em larga escala e de alta qualidade específico para essa tarefa. Para preencher essa lacuna, introduzimos um conjunto de dados sintético abrangente, contendo 12.328 cenas anotadas estruturadas com 57.440 cômodos e 4,7 milhões de renderizações 2D fotorrealistas. Aproveitando esse conjunto de dados, apresentamos o SpatialGen, um novo modelo de difusão multi-visão e multimodal que gera cenas internas 3D realistas e semanticamente consistentes. Dado um layout 3D e uma imagem de referência (derivada de um prompt de texto), nosso modelo sintetiza aparência (imagem colorida), geometria (mapa de coordenadas da cena) e semântica (mapa de segmentação semântica) a partir de pontos de vista arbitrários, preservando a consistência espacial entre as modalidades. O SpatialGen gera consistentemente resultados superiores aos métodos anteriores em nossos experimentos. Estamos disponibilizando nossos dados e modelos em código aberto para capacitar a comunidade e avançar o campo de compreensão e geração de cenas internas.
O rápido avanço dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tornou o alinhamento desses modelos com as preferências humanas um desafio crítico. Modelos de Recompensa (RMs) são uma tecnologia central para alcançar esse objetivo, mas atualmente falta tanto na academia quanto na indústria um guia sistemático para a construção de Modelos de Recompensa Multimodais (MRMs) de última geração. Por meio de uma análise experimental exaustiva, este artigo visa fornecer uma "receita" clara para a construção de MRMs de alto desempenho. Investigamos sistematicamente cada componente crucial no pipeline de desenvolvimento de MRMs, incluindo paradigmas de modelagem de recompensa (por exemplo, Naive-RM, Critic-based RM e Generative RM), arquitetura do cabeçalho de recompensa, estratégias de treinamento, curadoria de dados (abrangendo mais de dez conjuntos de dados de preferência multimodal e apenas texto), modelo base e escala do modelo, além de métodos de ensemble. Com base nessas análises experimentais, introduzimos o BaseReward, uma linha de base poderosa e eficiente para modelagem de recompensa multimodal. O BaseReward adota uma arquitetura simples, porém eficaz, construída sobre um modelo base {Qwen2.5-VL}, com um cabeçalho de recompensa otimizado de duas camadas, e é treinado em uma mistura cuidadosamente curada de dados de preferência multimodal e apenas texto de alta qualidade. Nossos resultados mostram que o BaseReward estabelece um novo estado da arte (SOTA) em benchmarks importantes, como MM-RLHF-Reward Bench, VL-Reward Bench e Multimodal Reward Bench, superando modelos anteriores. Além disso, para validar sua utilidade prática além de benchmarks estáticos, integramos o BaseReward em um pipeline de aprendizado por reforço do mundo real, melhorando com sucesso o desempenho de um MLLM em diversas tarefas de percepção, raciocínio e conversação. Este trabalho não apenas entrega um MRM de alto nível, mas, mais importante, fornece à comunidade um guia claro e empiricamente embasado para o desenvolvimento de modelos de recompensa robustos para a próxima geração de MLLMs.
O aprendizado por reforço (RL) robótico no mundo real com modelos visão-linguagem-ação (VLA) é limitado por recompensas esparsas e projetadas manualmente, além de exploração ineficiente. Introduzimos o VLAC, um modelo geral de recompensa de processo construído sobre o InternVL e treinado em grandes conjuntos de dados heterogêneos. Dadas observações pareadas e uma meta em linguagem natural, ele gera sinais densos de progresso delta e de conclusão, eliminando a engenharia de recompensas específicas para tarefas, e suporta transferência one-shot em contexto para tarefas e ambientes não vistos. O VLAC é treinado em conjuntos de dados visão-linguagem para fortalecer capacidades de percepção, diálogo e raciocínio, juntamente com dados de trajetórias de robôs e humanos que fundamentam a geração de ações e a estimativa de progresso, e é adicionalmente reforçado para rejeitar prompts irrelevantes e detectar regressão ou estagnação por meio da construção de um grande número de amostras negativas e semanticamente incompatíveis. Com controle de prompt, um único modelo VLAC alterna entre gerar tokens de recompensa e ação, unificando crítico e política. Implantado dentro de um loop de RL assíncrono no mundo real, adicionamos um protocolo graduado de humano-no-loop (replay de demonstração offline, retorno e exploração, exploração guiada por humanos) que acelera a exploração e estabiliza o aprendizado inicial. Em quatro tarefas distintas de manipulação no mundo real, o VLAC eleva as taxas de sucesso de cerca de 30% para cerca de 90% em 200 episódios de interação no mundo real; a incorporação de intervenções humano-no-loop resulta em uma melhoria adicional de 50% na eficiência amostral e alcança até 100% de sucesso final.
No campo da automação de interações humano-GUI (Interface Gráfica do Usuário) impulsionada por IA, embora avanços rápidos em modelos de linguagem multimodal e técnicas de ajuste fino por reforço tenham gerado progressos notáveis, um desafio fundamental persiste: sua lógica de interação desvia-se significativamente dos padrões naturais de comunicação humano-GUI. Para preencher essa lacuna, propomos o "Blink-Think-Link" (BTL), um framework inspirado no cérebro humano para interações humano-GUI que imita o processo cognitivo entre usuários e interfaces gráficas. O sistema decompõe as interações em três fases biologicamente plausíveis: (1) Blink - detecção rápida e atenção às áreas relevantes da tela, análoga aos movimentos sacádicos dos olhos; (2) Think - raciocínio e tomada de decisão de alto nível, refletindo o planejamento cognitivo; e (3) Link - geração de comandos executáveis para controle motor preciso, emulando os mecanismos de seleção de ações humanos. Além disso, introduzimos duas inovações técnicas fundamentais para o framework BTL: (1) Geração de Dados Blink - um pipeline de anotação automatizada especificamente otimizado para dados de blink, e (2) Recompensa BTL - o primeiro mecanismo de recompensa baseado em regras que permite o aprendizado por reforço orientado tanto pelo processo quanto pelo resultado. Com base nesse framework, desenvolvemos um modelo de agente GUI chamado BTL-UI, que demonstra desempenho consistentemente de ponta tanto em tarefas de compreensão estática de GUI quanto em interações dinâmicas em benchmarks abrangentes. Esses resultados fornecem validação empírica conclusiva da eficácia do framework no desenvolvimento de Agentes GUI avançados.
Apresentamos o Lynx, um modelo de alta fidelidade para síntese de vídeo personalizado a partir de uma única imagem de entrada. Construído sobre um modelo base de Transformador de Difusão (DiT) de código aberto, o Lynx introduz dois adaptadores leves para garantir a fidelidade da identidade. O ID-adapter utiliza um Perceiver Resampler para converter embeddings faciais derivados do ArcFace em tokens de identidade compactos para condicionamento, enquanto o Ref-adapter integra recursos densos de VAE de um caminho de referência congelado, injetando detalhes refinados em todas as camadas do transformador por meio de atenção cruzada. Esses módulos, em conjunto, permitem uma preservação robusta da identidade, mantendo a coerência temporal e o realismo visual. Por meio da avaliação em um benchmark curado de 40 sujeitos e 20 prompts imparciais, que resultaram em 800 casos de teste, o Lynx demonstrou superior semelhança facial, seguimento competitivo de prompts e forte qualidade de vídeo, avançando assim o estado da arte na geração de vídeos personalizados.
Embora o COLMAP tenha permanecido por muito tempo como o método predominante para otimização de parâmetros de câmera em cenas estáticas, ele é limitado por seu tempo de execução prolongado e pela dependência de máscaras de movimento de verdade terrestre (GT) para aplicação em cenas dinâmicas. Muitos esforços tentaram melhorá-lo incorporando mais priors como supervisão, como comprimento focal GT, máscaras de movimento, nuvens de pontos 3D, poses de câmera e profundidade métrica, que, no entanto, geralmente não estão disponíveis em vídeos RGB capturados casualmente. Neste artigo, propomos um novo método para otimização de parâmetros de câmera mais precisa e eficiente em cenas dinâmicas, supervisionado apenas por um único vídeo RGB. Nosso método consiste em três componentes principais: (1) Filtros de Rastreamento por Patch, para estabelecer relações robustas e maximamente esparsas, semelhantes a dobradiças, ao longo do vídeo RGB. (2) Otimização Conjunta com Consciência de Outliers, para otimização eficiente de parâmetros de câmera por meio da redução adaptativa de peso de outliers em movimento, sem depender de priors de movimento. (3) Uma Estratégia de Otimização em Dois Estágios, para melhorar a estabilidade e a velocidade de otimização por meio de um equilíbrio entre os limites Softplus e os mínimos convexos nas funções de perda. Avaliamos visual e numericamente nossas estimativas de câmera. Para validar ainda mais a precisão, alimentamos as estimativas de câmera em um método de reconstrução 4D e avaliamos as cenas 3D resultantes, bem como os mapas RGB e de profundidade renderizados em 2D. Realizamos experimentos em 4 conjuntos de dados do mundo real (NeRF-DS, DAVIS, iPhone e TUM-dynamics) e 1 conjunto de dados sintético (MPI-Sintel), demonstrando que nosso método estima parâmetros de câmera de forma mais eficiente e precisa com um único vídeo RGB como única supervisão.
A síntese de fala guiada por instruções (ITTS, do inglês Instruction-guided Text-to-Speech) permite que os usuários controlem a geração de fala por meio de prompts em linguagem natural, oferecendo uma interface mais intuitiva do que os sistemas tradicionais de TTS. No entanto, o alinhamento entre as instruções de estilo do usuário e a percepção do ouvinte ainda é amplamente inexplorado. Este trabalho apresenta, em primeiro lugar, uma análise perceptiva da controlabilidade do ITTS em duas dimensões expressivas (advérbios de grau e intensidade emocional graduada) e coleta avaliações humanas sobre atributos como idade do falante e ênfase em nível de palavra. Para revelar de forma abrangente a lacuna entre instrução e percepção, fornecemos uma coleta de dados com avaliações humanas em larga escala, denominada corpus Expressive VOice Control (E-VOC). Além disso, revelamos que (1) o modelo gpt-4o-mini-tts é o mais confiável entre os sistemas ITTS, com um excelente alinhamento entre instruções e enunciados gerados em dimensões acústicas. (2) Os 5 sistemas ITTS analisados tendem a gerar vozes de adultos, mesmo quando as instruções solicitam o uso de vozes infantis ou de idosos. (3) O controle refinado continua sendo um grande desafio, indicando que a maioria dos sistemas ITTS tem um espaço significativo para melhorias na interpretação de instruções com atributos ligeiramente diferentes.
Agentes de role-playing (RPAs) têm atraído crescente interesse por sua capacidade de simular personagens imersivos e interativos. No entanto, as abordagens existentes focam principalmente em perfis de papel estáticos, negligenciando as habilidades perceptivas dinâmicas inerentes aos seres humanos. Para preencher essa lacuna, introduzimos o conceito de perfis de papel dinâmicos ao incorporar a modalidade de vídeo aos RPAs. Para apoiar isso, construímos o Role-playing-Video60k, um conjunto de dados em larga escala e de alta qualidade, composto por 60 mil vídeos e 700 mil diálogos correspondentes. Com base nesse conjunto de dados, desenvolvemos um framework abrangente de RPA que combina amostragem temporal adaptativa com representações de perfis de papel dinâmicos e estáticos. Especificamente, o perfil dinâmico é criado ao amostrar adaptativamente quadros de vídeo e alimentá-los ao LLM em ordem temporal, enquanto o perfil estático consiste em (1) diálogos de personagens dos vídeos de treinamento durante o ajuste fino e (2) um contexto resumido do vídeo de entrada durante a inferência. Essa integração conjunta permite que os RPAs gerem respostas mais ricas. Além disso, propomos um método robusto de avaliação que abrange oito métricas. Os resultados experimentais demonstram a eficácia do nosso framework, destacando a importância dos perfis de papel dinâmicos no desenvolvimento de RPAs.
Modelos pré-treinados de reconhecimento automático de fala (ASR), como o Whisper, apresentam bom desempenho, mas ainda precisam de adaptação de domínio para lidar com vocabulário e expressões não vistos. Em muitos cenários do mundo real, a coleta de dados de fala é impraticável, exigindo adaptação apenas com texto. Propomos o WhisTLE, um método de adaptação profundamente supervisionado e baseado apenas em texto para modelos ASR pré-treinados de codificador-decodificador. O WhisTLE treina um autoencoder variacional (VAE) para modelar as saídas do codificador a partir de texto e ajusta o decodificador usando o codificador latente aprendido de texto para latente, opcionalmente combinado com adaptação de texto para fala (TTS). Na inferência, o codificador original é restaurado, sem custo adicional de tempo de execução. Em quatro conjuntos de dados fora do domínio e quatro modelos ASR, o WhisTLE com TTS reduz a taxa de erro de palavras (WER) em 12,3% em relação à adaptação apenas com TTS e supera todas as linhas de base não-WhisTLE em 27 de 32 cenários.
A conversa humana envolve linguagem, fala e sinais visuais, com cada meio fornecendo informações complementares. Por exemplo, a fala transmite uma vibração ou tom que não é totalmente capturado apenas pelo texto. Embora os LLMs multimodais se concentrem na geração de respostas textuais a partir de diversas entradas, menos atenção tem sido dada à geração de fala natural e envolvente. Propomos um agente humanóide que gera respostas de fala com base no humor da conversa e em informações sobre o estilo de resposta. Para alcançar isso, construímos um novo conjunto de dados MultiSensory Conversation focado em fala para permitir que os agentes gerem fala natural. Em seguida, propomos um modelo baseado em LLM multimodal para gerar respostas textuais e descrições de voz, que são usadas para gerar fala cobrindo informações paralinguísticas. Os resultados experimentais demonstram a eficácia de utilizar tanto as modalidades visuais quanto as auditivas na conversa para gerar fala envolvente. O código-fonte está disponível em https://github.com/kimtaesu24/MSenC.
O objetivo final dos agentes corporificados é criar colaboradores que possam interagir com humanos, e não meros executores que seguem instruções de forma passiva. Isso exige que os agentes se comuniquem, coordenem e adaptem suas ações com base no feedback humano. Recentemente, avanços em VLAs (Agentes de Linguagem Visual) ofereceram um caminho para alcançar esse objetivo. No entanto, a maioria dos agentes corporificados baseados em VLAs atuais opera em um modo unidirecional: recebem uma instrução e a executam sem feedback. Essa abordagem falha em cenários do mundo real, onde as instruções costumam ser ambíguas. Neste artigo, abordamos esse problema com o framework Ask-to-Clarify. Nosso framework primeiro resolve instruções ambíguas fazendo perguntas em um diálogo de múltiplos turnos. Em seguida, gera ações de baixo nível de ponta a ponta. Especificamente, o framework Ask-to-Clarify consiste em dois componentes: um VLM (Modelo de Linguagem Visual) para colaboração e um modelo de difusão para ação. Também introduzimos um módulo de conexão que gera condições para a difusão com base na saída do VLM. Esse módulo ajusta a observação por meio das instruções para criar condições confiáveis. Treinamos nosso framework com uma estratégia de isolamento de conhecimento em duas etapas. Primeiro, ajustamos o componente de colaboração usando dados de diálogo para resolução de ambiguidades. Em seguida, integramos o componente de ação enquanto congelamos o de colaboração. Isso preserva as habilidades de interação enquanto ajustamos o modelo de difusão para gerar ações. A estratégia de treinamento garante que nosso framework possa primeiro fazer perguntas e, depois, gerar ações. Durante a inferência, um detector de sinal funciona como um roteador que ajuda nosso framework a alternar entre fazer perguntas e realizar ações. Avaliamos o framework Ask-to-Clarify em 8 tarefas do mundo real, onde ele supera os VLAs state-of-the-art existentes. Os resultados sugerem que nosso framework proposto, juntamente com a estratégia de treinamento, oferece um caminho para agentes corporificados colaborativos.