Artigos de pesquisa em IA selecionados diariamente com traduções
A evolução dos Large Language Models (LLMs) para agentes autónomos expandiu o âmbito da codificação por IA, passando da geração de código localizada para a resolução complexa de problemas a nível de repositório e orientada pela execução. No entanto, os *benchmarks* atuais avaliam predominantemente a lógica do código em contextos estáticos, negligenciando os requisitos dinâmicos e de processo completo da engenharia no mundo real, particularmente no desenvolvimento *backend*, que exige uma configuração rigorosa do ambiente e implantação de serviços. Para colmatar esta lacuna, introduzimos o ABC-Bench, um *benchmark* explicitamente concebido para avaliar a codificação *backend* agentiva dentro de um fluxo de trabalho realista e executável. Utilizando um *pipeline* automatizado e escalável, selecionámos 224 tarefas práticas abrangendo 8 linguagens e 19 *frameworks* a partir de repositórios de código aberto. Diferente de avaliações anteriores, o ABC-Bench exige que os agentes gerem todo o ciclo de vida de desenvolvimento, desde a exploração do repositório até à instanciação de serviços em contentores, e que passem nos testes externos de API de ponta a ponta. A nossa avaliação extensiva revela que mesmo os modelos mais avançados têm dificuldade em apresentar um desempenho fiável nestas tarefas holísticas, destacando uma disparidade substancial entre as capacidades atuais dos modelos e as exigências práticas da engenharia *backend*. O nosso código está disponível em https://github.com/OpenMOSS/ABC-Bench.
Os modelos de linguagem grandes frequentemente resolvem tarefas de raciocínio complexo de forma mais eficaz com a Cadeia de Pensamento (CoT), mas ao custo de sequências longas de tokens com baixa largura de banda. Em contraste, os humanos frequentemente raciocinam de forma "soft" (suave/probabilística) mantendo uma distribuição sobre os próximos passos plausíveis. Motivados por isso, propomos o Pensamento Multiplex, um mecanismo estocástico de raciocínio soft que, a cada passo do pensamento, amostra K tokens candidatos e agrega seus *embeddings* em um único token contínuo multiplex. Isso preserva o *prior* do *embedding* do vocabulário e a dinâmica de amostragem da geração discreta padrão, ao mesmo tempo que induz uma distribuição de probabilidade tratável sobre os *rollouts* multiplex. Consequentemente, as trajetórias multiplex podem ser otimizadas diretamente com Aprendizado por Reforço (RL) *on-policy*. É importante destacar que o Pensamento Multiplex é auto-adaptativo: quando o modelo está confiante, o token multiplex é quase discreto e se comporta como a CoT padrão; quando está incerto, representa de forma compacta múltiplos próximos passos plausíveis sem aumentar o comprimento da sequência. Em *benchmarks* desafiadores de raciocínio matemático, o Pensamento Multiplex supera consistentemente as fortes *baselines* de CoT discreta e RL, desde Pass@1 até Pass@1024, ao mesmo tempo que produz sequências mais curtas. O código e os *checkpoints* estão disponíveis em https://github.com/GMLR-Penn/Multiplex-Thinking.
A avaliação precisa da confiança do modelo é essencial para a implantação de grandes modelos de linguagem (LLMs) em domínios factuais críticos. Embora a geração aumentada por recuperação (RAG) seja amplamente adotada para melhorar o embasamento, a calibração de confiança em configurações RAG permanece pouco compreendida. Realizamos um estudo sistemático em quatro benchmarks, revelando que os LLMs exibem um desempenho de calibração fraco devido a contextos recuperados ruidosos. Especificamente, evidências contraditórias ou irrelevantes tendem a inflar a falsa certeza do modelo, levando a uma severa superconfiança. Para resolver isso, propomos as Regras NAACL (Noise-AwAre Confidence CaLibration Rules) para fornecer uma base fundamentada para resolver a superconfiança sob ruído. Projetamos ainda o NAACL, uma estrutura de calibração consciente do ruído que sintetiza supervisão a partir de cerca de 2 mil exemplos do HotpotQA guiados por essas regras. Ao realizar ajuste fino supervisionado (SFT) com esses dados, o NAACL equipa os modelos com uma consciência intrínseca do ruído sem depender de modelos professores mais fortes. Resultados empíricos mostram que o NAACL produz ganhos substanciais, melhorando as pontuações ECE em 10,9% no domínio interno e 8,0% fora do domínio. Ao preencher a lacuna entre o ruído de recuperação e a calibração verbal, o NAACL abre caminho para LLMs precisos e epistemicamente confiáveis.
Modelos de segmentação fundamentais acionáveis por prompts, como o SAM3, demonstraram fortes capacidades de generalização por meio de prompts interativos e baseados em conceitos. No entanto, sua aplicabilidade direta à segmentação de imagens médicas permanece limitada por severas diferenças de domínio, a ausência de prompts espaciais privilegiados e a necessidade de raciocínio sobre estruturas anatômicas e volumétricas complexas. Apresentamos aqui o Medical SAM3, um modelo fundamental para segmentação universal de imagens médicas acionada por prompt, obtido através do ajuste fino completo do SAM3 em conjuntos de dados de imagens médicas 2D e 3D em larga escala e heterogêneos, com máscaras de segmentação e prompts de texto emparelhados. Através de uma análise sistemática do SAM3 padrão, observamos que seu desempenho se degrada substancialmente em dados médicos, com sua aparente competitividade dependendo fortemente de prévias geométricas robustas, como caixas delimitadoras derivadas da verdade fundamental. Essas descobertas motivam uma adaptação completa do modelo, indo além do mero ajuste de prompts. Ao ajustar os parâmetros do modelo SAM3 em 33 conjuntos de dados abrangendo 10 modalidades de imagem médica, o Medical SAM3 adquire representações robustas específicas do domínio, preservando a flexibilidade de ser acionado por prompts. Experimentos extensivos envolvendo órgãos, modalidades de imagem e dimensionalidades demonstram ganhos de desempenho consistentes e significativos, particularmente em cenários desafiadores caracterizados por ambiguidade semântica, morfologia complexa e contexto 3D de longo alcance. Nossos resultados estabelecem o Medical SAM3 como um modelo fundamental de segmentação universal e guiado por texto para imagens médicas e destacam a importância da adaptação holística do modelo para alcançar uma segmentação robusta acionada por prompt sob severa diferença de domínio. O código e o modelo estarão disponíveis em https://github.com/AIM-Research-Lab/Medical-SAM3.
O PubMed-OCR é um corpus centrado em OCR de artigos científicos derivado de PDFs de Acesso Aberto do PubMed Central. Cada imagem de página é anotada com o Google Cloud Vision e disponibilizada em um esquema JSON compacto com caixas delimitadoras em nível de palavra, linha e parágrafo. O corpus abrange 209,5 mil artigos (1,5 milhão de páginas; ~1,3 bilhão de palavras) e suporta modelagem consciente do layout, QA baseado em coordenadas e avaliação de fluxos de trabalho dependentes de OCR. Analisamos as características do corpus (por exemplo, cobertura de revistas e recursos de layout detectados) e discutimos limitações, incluindo a dependência de um único mecanismo de OCR e a reconstrução heurística de linhas. Disponibilizamos os dados e o esquema para facilitar pesquisas subsequentes e convidamos a extensões.
Os grandes modelos de linguagem podem representar uma variedade de personas, mas normalmente assumem por padrão uma identidade de Assistente útil, cultivada durante o pós-treinamento. Investigamos a estrutura do espaço de personas do modelo extraindo direções de ativação correspondentes a diversos arquétipos de personagens. Em vários modelos diferentes, descobrimos que o componente principal desse espaço de personas é um "Eixo do Assistente", que captura até que ponto um modelo opera em seu modo padrão de Assistente. Direcionar-se para a direção do Assistente reforça comportamentos úteis e inofensivos; afastar-se dela aumenta a tendência do modelo de se identificar como outras entidades. Além disso, afastar-se com valores mais extremos frequentemente induz um estilo de fala místico e teatral. Verificamos que esse eixo também está presente em modelos pré-treinados, onde promove principalmente arquétipos humanos úteis, como consultores e coaches, e inibe os espirituais. Medir desvios ao longo do Eixo do Assistente prevê o "desvio de persona", um fenômeno em que os modelos escorregam para exibir comportamentos prejudiciais ou bizarros que não são característicos de sua persona típica. Descobrimos que o desvio de persona é frequentemente impulsionado por conversas que exigem metarreflexão sobre os processos do modelo ou que apresentam usuários emocionalmente vulneráveis. Mostramos que restringir as ativações a uma região fixa ao longo do Eixo do Assistente pode estabilizar o comportamento do modelo nesses cenários — e também diante de jailbreaks adversariais baseados em persona. Nossos resultados sugerem que o pós-treinamento direciona os modelos para uma região específica do espaço de personas, mas apenas os prende frouxamente a ela, motivando trabalhos sobre estratégias de treinamento e direcionamento que ancoram mais profundamente os modelos a uma persona coerente.
A animação de imagens de personagens está ganhando importância significativa em vários domínios, impulsionada pela demanda por renderização robusta e flexível de múltiplos sujeitos. Embora os métodos existentes se destaquem na animação de pessoa única, eles lutam para lidar com contagens arbitrárias de sujeitos, tipos diversos de personagens e desalinhamento espacial entre a imagem de referência e as poses de condução. Atribuímos essas limitações a uma vinculação espacial excessivamente rígida que força um alinhamento pixel a pixel estrito entre a pose e a referência, e a uma incapacidade de revincular consistentemente o movimento aos sujeitos pretendidos. Para enfrentar esses desafios, propomos o CoDance, uma nova estrutura Unbind-Rebind (Desvincular-Revincular) que permite a animação de contagens arbitrárias de sujeitos, tipos e configurações espaciais condicionadas a uma única sequência de poses, potencialmente desalinhada. Especificamente, o módulo Unbind emprega um novo codificador de deslocamento de pose (pose shift encoder) para quebrar a vinculação espacial rígida entre a pose e a referência, introduzindo perturbações estocásticas tanto nas poses quanto em suas características latentes, forçando assim o modelo a aprender uma representação de movimento independente de localização. Para garantir controle preciso e associação de sujeitos, idealizamos então um módulo Rebind, aproveitando a orientação semântica de prompts de texto e a orientação espacial de máscaras de sujeito para direcionar o movimento aprendido para os personagens pretendidos. Além disso, para facilitar uma avaliação abrangente, introduzimos um novo benchmark multi-sujeito, o CoDanceBench. Experimentos extensivos no CoDanceBench e em conjuntos de dados existentes mostram que o CoDance alcança desempenho de estado da arte (SOTA), exibindo notável generalização em diversos sujeitos e layouts espaciais. O código e os pesos serão disponibilizados como código aberto.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) é altamente eficaz para aprimorar o raciocínio de LLMs, no entanto, evidências recentes mostram que modelos como o Qwen 2.5 alcançam ganhos significativos mesmo com recompensas espúrias ou incorretas. Investigamos este fenômeno e identificamos um "Paradoxo da Perplexidade": o RLVR espúrio desencadeia uma divergência na qual a perplexidade dos *tokens* de resposta diminui, enquanto a coerência do lado do *prompt* se degrada, sugerindo que o modelo está contornando o raciocínio em favor da memorização. Utilizando Path Patching, Logit Lens, análise JSD e Equações Diferenciais Neurais, descobrimos um circuito oculto Âncora-Adaptador que facilita este atalho. Localizamos uma Âncora Funcional nas camadas intermediárias (L18-20) que dispara a recuperação de soluções memorizadas, seguida por Adaptadores Estruturais nas camadas posteriores (L21+) que transformam as representações para acomodar o sinal de atalho. Por fim, demonstramos que a ampliação de *keys* específicas de MLP dentro deste circuito permite uma direção causal bidirecional - amplificando ou suprimindo artificialmente o desempenho impulsionado pela contaminação. Nossos resultados fornecem um roteiro mecanicista para identificar e mitigar a contaminação de dados em modelos ajustados por RLVR. O código está disponível em https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.
A orientação de Grandes Modelos de Linguagem (LLMs) por meio de intervenções de ativação surgiu como uma alternativa leve ao *fine-tuning* para alinhamento e personalização. Trabalhos recentes sobre Otimização de Preferência Bidirecional (BiPO) mostram que vetores de orientação densos podem ser aprendidos diretamente de dados de preferência de maneira semelhante à Otimização de Preferência Direta (DPO), permitindo o controle sobre veracidade, alucinações e comportamentos de segurança. No entanto, os vetores de orientação densos frequentemente emaranham múltiplos fatores latentes devido à multi-semanticidade dos neurônios, limitando sua eficácia e estabilidade em configurações de granularidade fina, como o alinhamento cultural, onde valores e comportamentos intimamente relacionados (por exemplo, entre culturas do Oriente Médio) devem ser distinguidos. Neste artigo, propomos Mais uma Otimização de Política (YaPO), um método sem referência que aprende vetores de orientação esparsos no espaço latente de um Autoencoder Esparsificado (SAE). Ao otimizar códigos esparsos, o YaPO produz direções de orientação desembaraçadas, interpretáveis e eficientes. Empiricamente, mostramos que o YaPO converge mais rapidamente, alcança desempenho superior e exibe maior estabilidade de treinamento em comparação com linhas de base de orientação densa. Além do alinhamento cultural, o YaPO generaliza para uma gama de comportamentos relacionados ao alinhamento, incluindo alucinação, busca por riqueza, *jailbreak* e busca por poder. Importante, o YaPO preserva o conhecimento geral, sem degradação mensurável no MMLU. No geral, nossos resultados mostram que o YaPO fornece uma receita geral para o alinhamento eficiente, estável e de granularidade fina de LLMs, com amplas aplicações em controlabilidade e adaptação de domínio. O código e os dados associados estão publicamente disponíveis em https://github.com/MBZUAI-Paris/YaPO.
A avaliação de se os modelos de linguagem multimodal compreendem verdadeiramente artigos científicos longos continua a ser um desafio: as métricas baseadas apenas na resposta e os testes sintéticos "Needle-In-A-Haystack" (Agulha no Palheiro) frequentemente recompensam a correspondência da resposta sem exigir um rastro de raciocínio causal e vinculado a evidências no documento. Propomos o paradigma "Fish-in-the-Ocean" (FITO, ou Peixe no Oceano), que exige que os modelos construam cadeias de evidências explícitas e multimodais dentro dos documentos científicos em seu formato nativo. Para operacionalizar o FITO, construímos o SIN-Data, um corpus científico intercalado que preserva a intercalação nativa de texto e figuras. Com base nele, construímos o SIN-Bench com quatro tarefas progressivas que abrangem a descoberta de evidências (SIN-Find), a verificação de hipóteses (SIN-Verify), perguntas e respostas fundamentadas (SIN-QA) e a síntese ancorada em evidências (SIN-Summary). Introduzimos ainda a regra "No Evidence, No Score" (Sem Evidência, Sem Pontuação), que pontua as previsões apenas quando fundamentadas em âncoras verificáveis e diagnostica a qualidade das evidências através de correspondência, relevância e lógica. Experimentos com oito MLLMs mostram que a fundamentação é o principal gargalo: o Gemini-3-pro alcança a melhor pontuação geral média (0,573), enquanto o GPT-5 atinge a maior precisão de resposta no SIN-QA (0,767), mas tem desempenho inferior nas pontuações gerais alinhadas com evidências, expondo uma lacuna entre a correção e o suporte rastreável.
Para ensinar robôs tarefas complexas de manipulação, é atualmente uma prática comum ajustar um modelo pré-treinado de visão-linguagem-ação (VLA) com dados específicos da tarefa. No entanto, como esta abordagem atualiza as representações existentes, é inadequada para operação de longo prazo no mundo real, onde os robôs devem adaptar-se continuamente a novas tarefas e ambientes, mantendo simultaneamente o conhecimento já adquirido. Os métodos existentes de aprendizagem contínua para robótica geralmente exigem o armazenamento de dados anteriores (exemplares), têm dificuldades com sequências longas de tarefas ou dependem de identificadores de tarefas para implementação. Para superar estas limitações, propomos a CLARE, uma estrutura geral e eficiente em parâmetros para aprendizagem contínua sem exemplares com VLAs. A CLARE introduz adaptadores modulares leves em camadas *feedforward* selecionadas e expande o modelo de forma autónoma apenas onde necessário durante a aprendizagem de uma nova tarefa, orientada pela similaridade de características por camadas. Durante a implementação, um mecanismo de encaminhamento baseado em autoencoder ativa dinamicamente os adaptadores mais relevantes sem exigir etiquetas de tarefas. Através de experiências extensivas no benchmark LIBERO, demonstramos que a CLARE alcança alto desempenho em novas tarefas sem sofrer de esquecimento catastrófico de tarefas anteriores, superando significativamente até mesmo métodos baseados em exemplares. O código e os dados estão disponíveis em https://tum-lsy.github.io/clare.