Artigos de pesquisa em IA selecionados diariamente com traduções
A automação da transformação de designs de interface do usuário (UI) em código front-end apresenta um potencial significativo para acelerar o desenvolvimento de software e democratizar fluxos de trabalho de design. Embora modelos de linguagem de grande escala (LLMs) recentes tenham demonstrado avanços na geração de código a partir de texto, muitas abordagens existentes dependem exclusivamente de prompts em linguagem natural, limitando sua eficácia na captura de layouts espaciais e intenções de design visual. Em contraste, o desenvolvimento de UI na prática é inerentemente multimodal, frequentemente começando com esboços visuais ou mockups. Para abordar essa lacuna, introduzimos uma estrutura modular de multiagentes que realiza a geração de UI para código em três estágios interpretáveis: fundamentação, planejamento e geração. O agente de fundamentação utiliza um modelo de visão e linguagem para detectar e rotular componentes de UI, o agente de planejamento constrói um layout hierárquico usando conhecimentos prévios de engenharia front-end, e o agente de geração produz código HTML/CSS por meio de síntese adaptativa baseada em prompts. Esse design melhora a robustez, interpretabilidade e fidelidade em comparação com métodos de caixa-preta de ponta a ponta. Além disso, estendemos a estrutura para um motor de dados escalável que produz automaticamente pares de imagem-código em grande escala. Utilizando esses exemplos sintéticos, ajustamos e reforçamos um VLM de código aberto, obtendo ganhos notáveis na compreensão de UI e na qualidade do código. Experimentos extensivos demonstram que nossa abordagem alcança desempenho de última geração em precisão de layout, coerência estrutural e correção de código. Nosso código está disponível publicamente em https://github.com/leigest519/ScreenCoder.
Neste relatório, apresentamos o Falcon-H1, uma nova série de modelos de linguagem de grande escala (LLMs) com designs de arquitetura híbrida otimizados para alto desempenho e eficiência em diversos casos de uso. Diferente dos modelos Falcon anteriores, construídos exclusivamente com arquiteturas Transformer ou Mamba, o Falcon-H1 adota uma abordagem híbrida paralela que combina a atenção baseada em Transformer com Modelos de Espaço de Estados (SSMs), conhecidos por sua memória de contexto longo e eficiência computacional superiores. Revisitamos sistematicamente o design do modelo, a estratégia de dados e a dinâmica de treinamento, questionando práticas convencionais do campo. O Falcon-H1 é lançado em múltiplas configurações, incluindo variantes base e ajustadas por instrução com 0,5B, 1,5B, 1,5B-deep, 3B, 7B e 34B de parâmetros. Modelos quantizados ajustados por instrução também estão disponíveis, totalizando mais de 30 checkpoints no Hugging Face Hub. Os modelos Falcon-H1 demonstram desempenho de ponta e eficiência excepcional em termos de parâmetros e treinamento. O carro-chefe Falcon-H1-34B iguala ou supera modelos de até 70B de escala, como Qwen3-32B, Qwen2.5-72B e Llama3.3-70B, utilizando menos parâmetros e dados. Modelos menores mostram tendências similares: o Falcon-H1-1.5B-Deep rivaliza com os principais modelos de 7B-10B atuais, e o Falcon-H1-0.5B tem desempenho comparável a modelos típicos de 7B de 2024. Esses modelos se destacam em raciocínio, matemática, tarefas multilingues, seguimento de instruções e conhecimento científico. Com suporte para até 256K tokens de contexto e 18 idiomas, o Falcon-H1 é adequado para uma ampla gama de aplicações. Todos os modelos são lançados sob uma licença de código aberto permissiva, reforçando nosso compromisso com pesquisa em IA acessível e impactante.
A criação 3D sempre foi uma habilidade única dos seres humanos, impulsionada pela nossa capacidade de desconstruir e remontar objetos usando nossos olhos, mente e mãos. No entanto, as ferramentas atuais de design 3D têm dificuldade em replicar esse processo natural, exigindo considerável expertise artística e trabalho manual. Este artigo apresenta o BANG, uma nova abordagem generativa que conecta a geração 3D ao raciocínio, permitindo uma decomposição intuitiva e flexível de objetos 3D em nível de partes. No cerne do BANG está a "Dinâmica Explodida Generativa", que cria uma sequência suave de estados explodidos para uma geometria de entrada, separando progressivamente as partes enquanto preserva sua coerência geométrica e semântica. O BANG utiliza um modelo de difusão latente em larga escala pré-treinado, ajustado para dinâmica explodida com um adaptador leve de vista explodida, permitindo controle preciso sobre o processo de decomposição. Ele também incorpora um módulo de atenção temporal para garantir transições suaves e consistência ao longo do tempo. O BANG aprimora o controle com prompts espaciais, como caixas delimitadoras e regiões de superfície, permitindo que os usuários especifiquem quais partes decompor e como. Essa interação pode ser estendida com modelos multimodais como o GPT-4, possibilitando manipulações 2D-para-3D para fluxos de trabalho mais intuitivos e criativos. As capacidades do BANG se estendem à geração de geometrias detalhadas em nível de partes, associação de partes com descrições funcionais e facilitação de fluxos de trabalho de criação e manufatura 3D conscientes dos componentes. Além disso, o BANG oferece aplicações em impressão 3D, onde partes separáveis são geradas para fácil impressão e remontagem. Em essência, o BANG permite uma transformação contínua de conceitos imaginativos para ativos 3D detalhados, oferecendo uma nova perspectiva sobre a criação que ressoa com a intuição humana.
O aprendizado por reforço tem demonstrado sua eficácia em aprimorar as capacidades de raciocínio de grandes modelos de linguagem. Esforços recentes de pesquisa têm progressivamente estendido esse paradigma para tarefas de raciocínio multimodal. Devido à complexidade e diversidade inerentes das tarefas multimodais, especialmente em termos de conteúdo semântico e formulações de problemas, os modelos existentes frequentemente apresentam desempenho instável em diversos domínios e níveis de dificuldade. Para abordar essas limitações, propomos o VL-Cogito, um modelo avançado de raciocínio multimodal treinado por meio de uma nova estrutura de Aprendizado por Reforço com Currículo Progressivo (PCuRL). O PCuRL guia sistematicamente o modelo através de tarefas de dificuldade gradualmente crescente, melhorando substancialmente suas habilidades de raciocínio em diversos contextos multimodais. A estrutura introduz duas inovações principais: (1) um mecanismo de ponderação suave de dificuldade online, que ajusta dinamicamente a dificuldade do treinamento ao longo de estágios sucessivos de RL; e (2) um mecanismo de recompensa de comprimento dinâmico, que incentiva o modelo a regular adaptativamente o comprimento de seu caminho de raciocínio de acordo com a complexidade da tarefa, equilibrando assim eficiência e correção no raciocínio. Avaliações experimentais demonstram que o VL-Cogito consistentemente iguala ou supera modelos orientados a raciocínio existentes em benchmarks multimodais principais que abrangem matemática, ciência, lógica e compreensão geral, validando a eficácia de nossa abordagem.
O Contrastive Language-Image Pretraining (CLIP) é um modelo de base popular, que suporta desde classificação zero-shot, recuperação até codificadores para modelos de linguagem multimodal de grande escala (MLLMs). Embora o CLIP tenha sido treinado com sucesso em pares de imagem-texto em escala bilionária do mundo anglófono, escalar ainda mais o treinamento do CLIP para aprender a partir de dados da web mundial continua desafiador: (1) não há um método de curadoria disponível para lidar com pontos de dados do mundo não anglófono; (2) o desempenho em inglês dos CLIPs multilíngues existentes é inferior ao seu equivalente exclusivamente em inglês, ou seja, a "maldição da multilinguidade", que é comum em LLMs. Aqui, apresentamos o MetaCLIP 2, a primeira receita para treinar o CLIP do zero em pares de imagem-texto em escala mundial da web. Para generalizar nossas descobertas, realizamos ablações rigorosas com mudanças mínimas necessárias para abordar os desafios acima e apresentamos uma receita que permite benefícios mútuos dos dados do mundo anglófono e não anglófono. Na classificação zero-shot do ImageNet, o MetaCLIP 2 ViT-H/14 supera seu equivalente exclusivamente em inglês em 0,8% e o mSigLIP em 0,7%, e surpreendentemente estabelece um novo estado da arte sem fatores de confusão em nível de sistema (por exemplo, tradução, mudanças de arquitetura personalizadas) em benchmarks multilíngues, como CVQA com 57,4%, Babel-ImageNet com 50,2% e XM3600 com 64,3% na recuperação de imagem para texto.
Modelos de linguagem de grande escala (LLMs) enfrentam baixa eficiência de hardware durante a decodificação, especialmente em tarefas de raciocínio de contexto longo. Este artigo apresenta o Step-3, um VLM com 321 bilhões de parâmetros que utiliza uma co-projetação hardware-modelo otimizada para minimizar os custos de decodificação. O Step-3 inova em duas dimensões principais: (1) Um novo mecanismo de Atenção por Fatoração de Múltiplas Matrizes (MFA) que reduz significativamente tanto o tamanho do cache KV quanto a computação, mantendo uma alta expressividade de atenção, e (2) a Desagregação Atenção-FFN (AFD), um sistema de inferência distribuída que desacopla as camadas de atenção e as Redes Feed-Forward (FFN) em subsistemas especializados. Essa co-projetação alcança uma eficiência de custo sem precedentes: o Step-3 reduz significativamente os custos teóricos de decodificação em comparação com modelos como o DeepSeek-V3 e o Qwen3 MoE 235B, com os ganhos aumentando em contextos mais longos. O Step-3 alcança baixo custo enquanto ativa 38 bilhões de parâmetros por token (mais que o DeepSeek-V3 e o Qwen3 MoE 235B), demonstrando que a intensidade aritmética de atenção alinhada ao hardware, a esparsidade do MoE e a AFD são críticas para a relação custo-benefício. Realizamos uma comparação direta com o DeepSeek-V3 em seus cenários favoráveis. Nossa implementação em GPUs Hopper alcança uma taxa de decodificação de até 4.039 tokens por segundo por GPU sob um SLA de 50ms TPOT (contexto de 4K, FP8, sem MTP). Isso é superior aos 2.324 do DeepSeek-V3 na mesma configuração e estabelece uma nova fronteira de Pareto para a decodificação de LLMs.
Embora o GRPO aprimore substancialmente os modelos de correspondência de fluxo no alinhamento de preferências humanas na geração de imagens, métodos como o FlowGRPO ainda apresentam ineficiência devido à necessidade de amostragem e otimização em todas as etapas de remoção de ruído especificadas pelo Processo de Decisão de Markov (MDP). Neste artigo, propomos o MixGRPO, uma nova estrutura que aproveita a flexibilidade de estratégias de amostragem mista por meio da integração de equações diferenciais estocásticas (SDE) e equações diferenciais ordinárias (ODE). Isso simplifica o processo de otimização dentro do MDP para melhorar a eficiência e impulsionar o desempenho. Especificamente, o MixGRPO introduz um mecanismo de janela deslizante, utilizando amostragem SDE e otimização guiada por GRPO apenas dentro da janela, enquanto aplica amostragem ODE fora dela. Esse design confina a aleatoriedade da amostragem às etapas de tempo dentro da janela, reduzindo assim a sobrecarga de otimização e permitindo atualizações de gradiente mais focadas para acelerar a convergência. Além disso, como as etapas de tempo além da janela deslizante não estão envolvidas na otimização, solucionadores de ordem superior são suportados para amostragem. Assim, apresentamos uma variante mais rápida, denominada MixGRPO-Flash, que melhora ainda mais a eficiência do treinamento enquanto alcança desempenho comparável. O MixGRPO exibe ganhos substanciais em múltiplas dimensões do alinhamento de preferências humanas, superando o DanceGRPO tanto em eficácia quanto em eficiência, com um tempo de treinamento quase 50% menor. Notavelmente, o MixGRPO-Flash reduz ainda mais o tempo de treinamento em 71%. Códigos e modelos estão disponíveis em https://github.com/Tencent-Hunyuan/MixGRPO{MixGRPO}.
A detecção de veículos em imagens aéreas é uma tarefa crítica com aplicações em monitoramento de tráfego, planejamento urbano e inteligência de defesa. Métodos de aprendizado profundo têm fornecido resultados de última geração (state-of-the-art, SOTA) para essa aplicação. No entanto, um desafio significativo surge quando modelos treinados com dados de uma região geográfica falham em generalizar efetivamente para outras áreas. A variabilidade em fatores como condições ambientais, layouts urbanos, redes viárias, tipos de veículos e parâmetros de aquisição de imagens (por exemplo, resolução, iluminação e ângulo) leva a mudanças de domínio que degradam o desempenho do modelo. Este artigo propõe um método inovador que utiliza inteligência artificial generativa para sintetizar imagens aéreas de alta qualidade e seus rótulos, aprimorando o treinamento de detectores por meio de aumento de dados. Nossa principal contribuição é o desenvolvimento de uma estrutura de transferência de conhecimento multiestágio e multimodal, utilizando modelos de difusão latente (LDMs) ajustados para mitigar a lacuna de distribuição entre os ambientes de origem e destino. Experimentos extensivos em diversos domínios de imagens aéreas mostram melhorias consistentes de desempenho em AP50 sobre o aprendizado supervisionado com dados do domínio de origem, métodos de adaptação fracamente supervisionados, métodos de adaptação de domínio não supervisionados e detectores de objetos de conjunto aberto em 4-23%, 6-10%, 7-40% e mais de 50%, respectivamente. Além disso, introduzimos dois novos conjuntos de dados aéreos anotados da Nova Zelândia e de Utah para apoiar pesquisas adicionais nesse campo. A página do projeto está disponível em: https://humansensinglab.github.io/AGenDA
A segmentação audiovisual referencial (RAVS, do inglês Referring Audio-Visual Segmentation) tem apresentado avanços significativos recentemente, mas ainda existem desafios na integração de informações multimodais e na compreensão e raciocínio profundo sobre o conteúdo audiovisual. Para expandir os limites da RAVS e facilitar pesquisas futuras nessa área, propomos a Segmentação Audiovisual Referencial Omnimodal (OmniAVS), um novo conjunto de dados contendo 2.098 vídeos e 59.458 expressões referenciais multimodais. O OmniAVS se destaca por três inovações principais: (1) 8 tipos de expressões multimodais que combinam de forma flexível texto, fala, som e pistas visuais; (2) uma ênfase na compreensão do conteúdo de áudio, indo além da simples detecção de sua presença; e (3) a inclusão de raciocínio complexo e conhecimento do mundo nas expressões. Além disso, introduzimos o Assistente de Segmentação Instruído Omnimodal (OISA, do inglês Omnimodal Instructed Segmentation Assistant), para abordar os desafios de raciocínio multimodal e compreensão refinada do conteúdo audiovisual no OmniAVS. O OISA utiliza MLLM (Modelos de Linguagem Multimodal) para compreender pistas complexas e realizar segmentação baseada em raciocínio. Experimentos extensivos mostram que o OISA supera métodos existentes no OmniAVS e alcança resultados competitivos em outras tarefas relacionadas.
O APR (Reparo Automatizado de Programas) visa localizar automaticamente defeitos em programas, gerar correções e validar os reparos. As técnicas existentes para APR são frequentemente combinadas com LLMs (Modelos de Linguagem de Grande Escala), que aproveitam o conhecimento relacionado a código dos LLMs para melhorar a eficácia do reparo. Os métodos atuais de APR baseados em LLMs geralmente utilizam casos de teste apenas durante a etapa de inferência, adotando uma abordagem iterativa que realiza o reparo primeiro e o valida através da execução de testes posteriormente. Esse paradigma convencional negligencia dois aspectos importantes: a contribuição potencial dos casos de teste na fase de treinamento e a possibilidade de aproveitar os testes antes do reparo. Para abordar isso, propomos o Repair-R1, que introduz casos de teste na fase de treinamento do modelo e desloca a geração de testes para preceder o reparo. O modelo é obrigado a primeiro gerar casos de teste discriminativos que podem distinguir comportamentos defeituosos e, em seguida, realizar o reparo com base nesses testes. Isso permite que o modelo localize melhor os defeitos e compreenda as causas subjacentes dos defeitos, melhorando assim a eficácia do reparo. Implementamos o Repair-R1 com três modelos de base diferentes, usando RL (aprendizado por reforço) para co-otimizar a geração de testes e o reparo de bugs. Os resultados experimentais em quatro benchmarks amplamente adotados demonstram a superioridade do Repair-R1. Especificamente, em comparação com modelos convencionais, o Repair-R1 melhora a taxa de sucesso de reparo em 2,68% a 48,29%, a taxa de sucesso de geração de testes em 16,38% a 53,28% e a cobertura de testes em 0,78% a 53,96%. Publicamos o código e os pesos em https://github.com/Tomsawyerhu/APR-RL e https://huggingface.co/tomhu/Qwen3-4B-RL-5000-step.
A tensão entre privacidade dos dados e utilidade do modelo tornou-se o principal gargalo para a implantação prática de grandes modelos de linguagem (LLMs) treinados em corpora sensíveis, incluindo dados de saúde. O gradiente descendente estocástico com privacidade diferencial (DP-SGD) garante privacidade formal, mas o faz a um custo significativo: os gradientes são forçosamente cortados e perturbados com ruído, degradando a eficiência amostral e a precisão final. Numerosas variantes foram propostas para suavizar essa compensação, mas todas compartilham uma limitação: seus controles são codificados de forma rígida, globais e alheios à paisagem de otimização em evolução. Consequentemente, os profissionais são forçados a gastar excessivamente o orçamento de privacidade em busca de utilidade ou a aceitar modelos medíocres para permanecer dentro das restrições de privacidade. Apresentamos o RLDP, o primeiro framework a tratar a otimização DP como um problema de controle em malha fechada passível de ser abordado por técnicas modernas de aprendizado por reforço profundo (RL). O RLDP monitora continuamente estatísticas ricas da dinâmica de aprendizado e age selecionando limites de corte de gradiente granulares por parâmetro, bem como a magnitude do ruído gaussiano injetado. Uma hiper-política de ator-crítico suave (SAC) é treinada online durante o ajuste fino do modelo de linguagem; ela aprende, do zero, como alocar o orçamento de privacidade onde e quando ele é mais necessário. Em mais de 1.600 experimentos de ablação realizados com GPT2-small, Llama-1B, Llama-3B e Mistral-7B, o RLDP proporciona reduções de perplexidade de 1,3-30,5% (média de 5,4%) e um ganho médio de utilidade em tarefas subsequentes de 5,6%. O RLDP atinge a utilidade final de cada linha de base após apenas 13-43% do orçamento de atualização de gradiente (aceleração média de 71%), tudo isso respeitando o mesmo contrato de privacidade diferencial (epsilon, delta)-DP e exibindo suscetibilidade igual ou menor a ataques de inferência de associação e extração de canários.
A geração de cenas 3D a partir de linguagem natural apresenta grande potencial para aplicações em jogos, filmes e design. No entanto, os métodos existentes enfrentam desafios em termos de automação, consistência 3D e controle refinado. Apresentamos o DreamScene, uma estrutura de ponta a ponta para a geração de cenas 3D de alta qualidade e editáveis a partir de texto ou diálogo. O DreamScene começa com um módulo de planejamento de cena, onde um agente GPT-4 infere a semântica dos objetos e as restrições espaciais para construir um grafo híbrido. Um algoritmo de posicionamento baseado em grafo produz então um layout estruturado e livre de colisões. Com base nesse layout, a Amostragem de Padrão de Formação (FPS) gera a geometria dos objetos utilizando amostragem multi-timestep e otimização reconstrutiva, permitindo uma síntese rápida e realista. Para garantir consistência global, o DreamScene emprega uma estratégia de amostragem progressiva de câmera adaptada tanto a ambientes internos quanto externos. Por fim, o sistema suporta edição refinada da cena, incluindo movimento de objetos, alterações de aparência e movimento dinâmico 4D. Experimentos demonstram que o DreamScene supera métodos anteriores em qualidade, consistência e flexibilidade, oferecendo uma solução prática para a criação de conteúdo 3D em domínio aberto. Código e demonstrações estão disponíveis em https://jahnsonblack.github.io/DreamScene-Full/.