Artigos de pesquisa em IA selecionados diariamente com traduções
Assim como estudantes diante de questões difíceis em exames, modelos de linguagem de grande escala às vezes adivinham quando incertos, produzindo afirmações plausíveis, porém incorretas, em vez de admitir a incerteza. Essas "alucinações" persistem mesmo em sistemas de última geração e minam a confiança. Argumentamos que os modelos de linguagem alucinam porque os procedimentos de treinamento e avaliação recompensam a adivinhação em vez do reconhecimento da incerteza, e analisamos as causas estatísticas das alucinações no pipeline moderno de treinamento. As alucinações não precisam ser misteriosas — elas surgem simplesmente como erros em classificação binária. Se afirmações incorretas não puderem ser distinguidas de fatos, então as alucinações em modelos de linguagem pré-treinados surgirão por meio de pressões estatísticas naturais. Em seguida, argumentamos que as alucinações persistem devido à forma como a maioria das avaliações é pontuada — os modelos de linguagem são otimizados para serem bons em testes, e adivinhar quando incerto melhora o desempenho nos testes. Essa "epidemia" de penalizar respostas incertas só pode ser resolvida por meio de uma mitigação sociotécnica: modificando a pontuação de benchmarks existentes que estão desalinhados, mas dominam os rankings, em vez de introduzir avaliações adicionais de alucinação. Essa mudança pode direcionar o campo para sistemas de IA mais confiáveis.
Modelos de linguagem de previsão autoregressiva do próximo token oferecem capacidades poderosas, mas enfrentam desafios significativos na implantação prática devido aos altos custos computacionais e de memória durante a inferência, particularmente na etapa de decodificação. Introduzimos o Decodificação em Blocos de Conjunto (Set Block Decoding - SBD), um paradigma simples e flexível que acelera a geração ao integrar a previsão padrão do próximo token (Next Token Prediction - NTP) e a previsão de tokens mascarados (Masked Token Prediction - MATP) em uma única arquitetura. O SBD permite que o modelo amostre múltiplos tokens futuros, não necessariamente consecutivos, em paralelo, uma distinção crucial em relação aos métodos de aceleração anteriores. Essa flexibilidade possibilita o uso de solucionadores avançados da literatura de difusão discreta, oferecendo ganhos significativos de velocidade sem sacrificar a precisão. O SBD não requer alterações arquiteturais ou hiperparâmetros de treinamento adicionais, mantém compatibilidade com o armazenamento exato de chaves-valores (KV-caching) e pode ser implementado por meio do ajuste fino de modelos existentes de previsão do próximo token. Ao ajustar finamente os modelos Llama-3.1 8B e Qwen-3 8B, demonstramos que o SBD permite uma redução de 3 a 5 vezes no número de passagens diretas necessárias para a geração, mantendo o mesmo desempenho obtido com o treinamento equivalente em NTP.
Modelos de linguagem de grande escala (LLMs) se destacam na síntese de programas, mas sua capacidade de produzir programas gráficos simbólicos (SGPs) que renderizam conteúdo visual preciso ainda é pouco explorada. Estudamos a programação gráfica simbólica, onde o objetivo é gerar um SGP a partir de uma descrição em linguagem natural. Essa tarefa também serve como uma lente para entender como os LLMs compreendem o mundo visual, ao solicitá-los a gerar imagens renderizadas a partir de SGPs. Entre vários SGPs, nosso artigo foca em gráficos vetoriais escaláveis (SVGs). Começamos examinando até que ponto os LLMs podem gerar SGPs. Para isso, introduzimos o SGP-GenBench, um benchmark abrangente que cobre fidelidade de objetos, fidelidade de cena e composicionalidade (vinculação de atributos, relações espaciais, numeracia). No SGP-GenBench, descobrimos que modelos proprietários de ponta superam substancialmente os modelos de código aberto, e o desempenho está bem correlacionado com as capacidades gerais de codificação. Motivados por essa lacuna, buscamos melhorar a capacidade dos LLMs de gerar SGPs. Propomos uma abordagem de aprendizado por reforço (RL) com recompensas verificáveis, onde um portão de validade de formato garante SVGs renderizáveis, e uma recompensa cross-modal alinha texto e imagem renderizada por meio de codificadores visuais robustos (por exemplo, SigLIP para texto-imagem e DINO para imagem-imagem). Aplicado ao Qwen-2.5-7B, nosso método melhora substancialmente a qualidade e a semântica da geração de SVGs, alcançando desempenho comparável aos sistemas de ponta. Analisamos ainda a dinâmica de treinamento, mostrando que o RL induz (i) uma decomposição mais refinada de objetos em primitivos controláveis e (ii) detalhes contextuais que melhoram a coerência da cena. Nossos resultados demonstram que a programação gráfica simbólica oferece uma lente precisa e interpretável para o alinhamento cross-modal.
A estimativa da iluminação de uma cena a partir de uma única imagem ou vídeo continua sendo um desafio antigo na visão computacional e gráficos. As abordagens baseadas em aprendizado são limitadas pela escassez de mapas de ambiente HDR de referência, que são caros de capturar e possuem diversidade limitada. Embora modelos generativos recentes ofereçam fortes priors para síntese de imagens, a estimativa de iluminação permanece difícil devido à sua dependência de pistas visuais indiretas, à necessidade de inferir contexto global (não local) e à recuperação de saídas de alta faixa dinâmica. Propomos o LuxDiT, uma abordagem orientada por dados que ajusta um transformador de difusão de vídeo para gerar mapas de ambiente HDR condicionados à entrada visual. Treinado em um grande conjunto de dados sintéticos com diversas condições de iluminação, nosso modelo aprende a inferir iluminação a partir de pistas visuais indiretas e generaliza efetivamente para cenas do mundo real. Para melhorar o alinhamento semântico entre a entrada e o mapa de ambiente previsto, introduzimos uma estratégia de ajuste fino de adaptação de baixo posto usando um conjunto de dados coletado de panoramas HDR. Nosso método produz previsões de iluminação precisas com detalhes angulares de alta frequência realistas, superando as técnicas state-of-the-art existentes em avaliações quantitativas e qualitativas.
Avanços recentes em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades impressionantes em diversas tarefas de visão e linguagem. No entanto, suas habilidades de raciocínio no domínio multimodal da música simbólica permanecem amplamente inexploradas. Apresentamos o WildScore, o primeiro benchmark de raciocínio e análise multimodal de música simbólica "in-the-wild", projetado para avaliar a capacidade dos MLLMs de interpretar partituras musicais do mundo real e responder a consultas musicológicas complexas. Cada instância no WildScore é proveniente de composições musicais genuínas e acompanhada por perguntas e discussões autênticas geradas por usuários, capturando as nuances da análise musical prática. Para facilitar a avaliação sistemática, propomos uma taxonomia sistemática, composta por ontologias musicológicas de alto nível e detalhadas. Além disso, estruturamos o raciocínio musical complexo como uma tarefa de resposta a perguntas de múltipla escolha, permitindo uma avaliação controlada e escalável da compreensão de música simbólica pelos MLLMs. O benchmarking empírico de MLLMs state-of-the-art no WildScore revela padrões intrigantes em seu raciocínio visual-simbólico, destacando tanto direções promissoras quanto desafios persistentes para os MLLMs no raciocínio e análise de música simbólica. Disponibilizamos o conjunto de dados e o código.
Pesquisas recentes têm se concentrado cada vez mais no desenvolvimento de modelos de mundo 3D que simulam cenários complexos do mundo real. Os modelos de mundo encontraram amplas aplicações em diversos domínios, incluindo IA incorporada, direção autônoma, entretenimento, entre outros. Uma simulação mais realista com física precisa reduzirá efetivamente a lacuna entre simulação e realidade e nos permitirá coletar informações ricas sobre o mundo real de forma conveniente. Embora a modelagem manual tradicional tenha possibilitado a criação de cenas virtuais 3D, abordagens modernas têm aproveitado algoritmos avançados de aprendizado de máquina para a geração de mundos 3D, com os avanços mais recentes focando em métodos generativos que podem criar mundos virtuais com base em instruções do usuário. Este trabalho explora essa direção de pesquisa propondo o LatticeWorld, um framework simples, porém eficaz, para geração de mundos 3D que simplifica o pipeline de produção industrial de ambientes 3D. O LatticeWorld utiliza LLMs leves (LLaMA-2-7B) juntamente com um motor de renderização de nível industrial (por exemplo, Unreal Engine 5) para gerar um ambiente dinâmico. Nosso framework proposto aceita descrições textuais e instruções visuais como entradas multimodais e cria mundos 3D interativos em grande escala com agentes dinâmicos, apresentando interação competitiva entre múltiplos agentes, simulação de física de alta fidelidade e renderização em tempo real. Realizamos experimentos abrangentes para avaliar o LatticeWorld, mostrando que ele alcança precisão superior na geração de layouts de cena e fidelidade visual. Além disso, o LatticeWorld alcança um aumento de mais de 90 vezes na eficiência da produção industrial, mantendo alta qualidade criativa em comparação com métodos tradicionais de produção manual. Nosso vídeo de demonstração está disponível em https://youtu.be/8VWZXpERR18.
Apresentamos o WinT3R, um modelo de reconstrução feed-forward capaz de prever online poses de câmera precisas e mapas de pontos de alta qualidade. Métodos anteriores sofrem com uma troca entre qualidade de reconstrução e desempenho em tempo real. Para resolver isso, primeiro introduzimos um mecanismo de janela deslizante que garante troca suficiente de informações entre os quadros dentro da janela, melhorando assim a qualidade das previsões geométricas sem grande custo computacional. Além disso, utilizamos uma representação compacta de câmeras e mantemos um pool global de tokens de câmera, o que aumenta a confiabilidade da estimativa de pose da câmera sem sacrificar a eficiência. Esses projetos permitem que o WinT3R alcance desempenho de ponta em termos de qualidade de reconstrução online, estimativa de pose da câmera e velocidade de reconstrução, conforme validado por extensos experimentos em diversos conjuntos de dados. O código e o modelo estão disponíveis publicamente em https://github.com/LiZizun/WinT3R.
O progresso em muitos domínios de tarefas surge de revisões repetidas de tentativas anteriores de solução. Treinar agentes que possam se autoaperfeiçoar de forma confiável ao longo de tais sequências durante o tempo de inferência é um objetivo natural para o aprendizado por reforço (RL), mas a abordagem ingênua assume uma profundidade máxima de iteração fixa, o que pode ser tanto custoso quanto arbitrário. Apresentamos a Iteração Exploratória (ExIt), uma família de métodos de RL de autocurrículo que explora diretamente a estrutura recorrente de tarefas de autoaperfeiçoamento para treinar LLMs a realizar autoaperfeiçoamento em múltiplos passos durante o tempo de inferência, enquanto treina apenas nas iterações de um único passo mais informativas. A ExIt expande um espaço de tarefas ao amostrar seletivamente os históricos intermediários e parciais mais informativos encontrados durante um episódio para continuar a iteração, tratando esses pontos de partida como novas instâncias de tarefas de autoiteração para treinar uma política de autoaperfeiçoamento. A ExIt pode ainda se combinar com mecanismos de exploração explícita para sustentar uma maior diversidade de tarefas. Em vários domínios, abrangendo matemática competitiva, uso de ferramentas em múltiplos turnos e engenharia de aprendizado de máquina, demonstramos que as estratégias ExIt, partindo de uma única ou de várias instâncias de tarefas, podem produzir políticas que exibem um forte autoaperfeiçoamento durante o tempo de inferência em instâncias de tarefas retidas, e a capacidade de iterar em direção a um desempenho mais alto dentro de um orçamento de passos que se estende além da profundidade média de iteração encontrada durante o treinamento.
Os benchmarks atuais para Modelos de Linguagem de Grande Escala (LLMs) concentram-se principalmente em métricas de desempenho, muitas vezes falhando em capturar as características comportamentais sutis que os diferenciam. Este artigo introduz uma nova estrutura de "Impressão Digital Comportamental" projetada para ir além das avaliações tradicionais, criando um perfil multifacetado dos estilos cognitivos e interativos intrínsecos de um modelo. Utilizando um Conjunto de Prompts Diagnósticos cuidadosamente selecionado e um pipeline de avaliação automatizado e inovador, no qual um LLM poderoso atua como um juiz imparcial, analisamos dezoito modelos em diferentes níveis de capacidade. Nossos resultados revelam uma divergência crítica no cenário dos LLMs: enquanto capacidades centrais, como raciocínio abstrato e causal, estão convergindo entre os modelos mais avançados, comportamentos relacionados ao alinhamento, como sifofância e robustez semântica, variam drasticamente. Além disso, documentamos um agrupamento de persona padrão entre modelos (ISTJ/ESTJ) que provavelmente reflete incentivos comuns de alinhamento. Em conjunto, isso sugere que a natureza interativa de um modelo não é uma propriedade emergente de sua escala ou poder de raciocínio, mas uma consequência direta de estratégias de alinhamento específicas e altamente variáveis dos desenvolvedores. Nossa estrutura fornece uma metodologia reproduzível e escalável para revelar essas diferenças comportamentais profundas. Projeto: https://github.com/JarvisPei/Behavioral-Fingerprinting
A eficácia dos Modelos de Linguagem de Grande Escala (LLMs) é geralmente avaliada por meio de benchmarks como MMLU, ARC-C ou HellaSwag, onde as perguntas são apresentadas em sua formulação original, ou seja, em um formato fixo e padronizado. No entanto, aplicações do mundo real envolvem variabilidade linguística, exigindo que os modelos mantenham sua eficácia diante de diferentes reformulações da mesma pergunta ou consulta. Neste estudo, avaliamos sistematicamente a robustez dos LLMs a perguntas de benchmarks parafraseadas e investigamos se as avaliações baseadas em benchmarks fornecem uma medida confiável das capacidades dos modelos. Geramos sistematicamente várias paráfrases de todas as perguntas em seis benchmarks comuns diferentes e medimos as variações resultantes na eficácia de 34 LLMs de última geração, de diferentes tamanhos e eficácias. Nossos resultados revelam que, embora as classificações dos LLMs permaneçam relativamente estáveis em entradas parafraseadas, as pontuações absolutas de eficácia mudam e declinam significativamente. Isso sugere que os LLMs têm dificuldades com a variabilidade linguística, levantando preocupações sobre suas habilidades de generalização e metodologias de avaliação. Além disso, a queda de desempenho observada desafia a confiabilidade das avaliações baseadas em benchmarks, indicando que pontuações altas em benchmarks podem não capturar totalmente a robustez de um modelo a variações de entrada do mundo real. Discutimos as implicações desses achados para as metodologias de avaliação de LLMs, enfatizando a necessidade de benchmarks que considerem a robustez e reflitam melhor os cenários práticos de implantação.
Erros de diagnóstico radiológico - erros de subleitura, cegueira por desatenção e falhas de comunicação - permanecem prevalentes na prática clínica. Esses problemas frequentemente decorrem de anormalidades localizadas não detectadas, contexto global limitado e variabilidade na linguagem dos relatórios. Esses desafios são amplificados na imagem 3D, onde os clínicos devem examinar centenas de cortes por exame. Para abordá-los, são necessários sistemas com detecção localizada precisa, raciocínio em nível de volume global e relatórios em linguagem natural semanticamente consistentes. No entanto, os modelos visão-linguagem 3D existentes não conseguem atender a todas as três necessidades em conjunto, carecendo de compreensão local-global para raciocínio espacial e lutando com a variabilidade e o ruído dos relatórios radiológicos não curados. Apresentamos o MedVista3D, uma estrutura de pré-treinamento visão-linguagem enriquecida semanticamente em múltiplas escalas para análise de TC 3D. Para permitir a detecção conjunta de doenças e interpretação holística, o MedVista3D realiza alinhamento local e global de imagem-texto para aprendizado de representação refinada dentro do contexto de volume completo. Para lidar com a variabilidade dos relatórios, aplicamos reescritas de modelos de linguagem e introduzimos um Banco de Correspondência Semântica Radiológica para alinhamento consciente da semântica. O MedVista3D alcança desempenho de ponta em classificação de doenças zero-shot, recuperação de relatórios e resposta a perguntas visuais médicas, enquanto se transfere bem para segmentação de órgãos e previsão de prognóstico. Códigos e conjuntos de dados serão liberados.
Propomos o U-Arm, uma estrutura de teleoperação líder-seguidor de baixo custo e rápida adaptação, projetada para interfacear com a maioria dos braços robóticos disponíveis comercialmente. Nosso sistema suporta teleoperação através de três braços líderes impressos em 3D estruturalmente distintos que compartilham uma lógica de controle consistente, permitindo compatibilidade perfeita com diversas configurações de robôs comerciais. Em comparação com interfaces líder-seguidor de código aberto anteriores, otimizamos tanto o design mecânico quanto a seleção de servos, alcançando um custo de lista de materiais (BOM) de apenas \$50,5 para o braço líder de 6 graus de liberdade (DoF) e \$56,8 para a versão de 7 DoF. Para melhorar a usabilidade, mitigamos o desafio comum de controlar graus de liberdade redundantes por meio de otimizações mecânicas e de controle. Resultados experimentais demonstram que o U-Arm alcança 39\% maior eficiência na coleta de dados e taxas de sucesso comparáveis em múltiplos cenários de manipulação em relação ao Joycon, outra interface de teleoperação de baixo custo. Disponibilizamos todos os modelos CAD de três configurações e também fornecemos suporte de simulação para validar fluxos de trabalho de teleoperação. Também disponibilizamos dados de manipulação do mundo real coletados com o U-Arm. O site do projeto é https://github.com/MINT-SJTU/LeRobot-Anything-U-Arm.