Artigos de pesquisa em IA selecionados diariamente com traduções
A crescente demanda por dados de alta qualidade em Modelos de Linguagem de Grande Porte (LLMs) intensificou a necessidade de pipelines de preparação de dados escaláveis, confiáveis e semanticamente ricos. No entanto, as práticas atuais ainda são dominadas por scripts ad-hoc e fluxos de trabalho vagamente especificados, que carecem de abstrações fundamentadas, prejudicam a reprodutibilidade e oferecem suporte limitado para a geração de dados com o modelo no loop. Para enfrentar esses desafios, apresentamos o DataFlow, um framework unificado e extensível para preparação de dados orientado por LLMs. O DataFlow foi projetado com abstrações em nível de sistema que permitem transformações de dados modulares, reutilizáveis e composáveis, e fornece uma API de construção de pipelines no estilo PyTorch para criar fluxos de dados depuráveis e otimizáveis. O framework consiste em quase 200 operadores reutilizáveis e seis pipelines de domínio geral, abrangendo texto, raciocínio matemático, código, Text-to-SQL, RAG agentivo e extração de conhecimento em larga escala. Para melhorar ainda mais a usabilidade, introduzimos o DataFlow-Agent, que traduz automaticamente especificações em linguagem natural em pipelines executáveis por meio de síntese de operadores, planejamento de pipeline e verificação iterativa. Em seis casos de uso representativos, o DataFlow melhora consistentemente o desempenho dos LLMs a jusante. Nossos pipelines de matemática, código e texto superam conjuntos de dados humanos curados e baselines sintéticas especializadas, alcançando até +3% de precisão de execução em Text-to-SQL em relação ao SynSQL, melhorias médias de +7% em benchmarks de código e ganhos de 1 a 3 pontos em MATH, GSM8K e AIME. Além disso, um conjunto de dados unificado de 10 mil amostras produzido pelo DataFlow permite que modelos base superem contrapartes treinadas em 1 milhão de dados do Infinity-Instruct. Esses resultados demonstram que o DataFlow fornece um substrato prático e de alto desempenho para uma preparação de dados para LLMs confiável, reproduzível e escalável, e estabelece uma base em nível de sistema para o futuro desenvolvimento de IA centrada em dados.
As representações profundas entre modalidades são intrinsecamente interligadas. Neste artigo, analisamos sistematicamente as características espectrais de vários codificadores semânticos e de pixels. Curiosamente, nosso estudo revela uma correspondência altamente inspiradora e pouco explorada entre o espectro de características de um codificador e sua função: codificadores semânticos capturam principalmente componentes de baixa frequência que codificam significado abstrato, enquanto codificadores de pixels retêm adicionalmente informações de alta frequência que transmitem detalhes refinados. Esta descoberta heurística oferece uma perspectiva unificadora que conecta o comportamento do codificador à sua estrutura espectral subjacente. Nós a definimos como a Hipótese do Prisma, onde cada modalidade de dados pode ser vista como uma projeção do mundo natural em um espectro de características compartilhado, assim como o prisma. Com base nesse insight, propomos o Unified Autoencoding (UAE), um modelo que harmoniza estrutura semântica e detalhes de pixels por meio de um modulador de banda de frequência inovador, permitindo sua coexistência harmoniosa. Experimentos extensos nos benchmarks ImageNet e MS-COCO validam que nosso UAE unifica efetivamente a abstração semântica e a fidelidade em nível de pixel em um único espaço latente com desempenho state-of-the-art.
O paradigma de geração in-context demonstrou recentemente forte capacidade na edição de imagens instrucional, com eficiência de dados e qualidade de síntese. No entanto, adaptar esse aprendizado in-context para a edição de vídeo baseada em instruções não é trivial. Sem especificar regiões de edição, os resultados podem sofrer com o problema de regiões de edição imprecisas e a interferência entre tokens de áreas editadas e não editadas durante a remoção de ruído. Para resolver isso, apresentamos o ReCo, um novo paradigma de edição de vídeo instrucional que investiga de forma inovadora a modelagem de restrições entre regiões editadas e não editadas durante a geração in-context. Tecnicamente, o ReCo concatena lateralmente os vídeos fonte e destino para remoção de ruído conjunta. Para calibrar o aprendizado de difusão de vídeo, o ReCo emprega dois termos de regularização, ou seja, regularização latente e de atenção, aplicados respectivamente aos latentes desruídos de um passo anterior e aos mapas de atenção. O primeiro aumenta a discrepância latente da região de edição entre os vídeos fonte e destino, enquanto reduz a das áreas não editadas, enfatizando a modificação na área de edição e aliviando a geração de conteúdo indesejado externo. O último suprime a atenção dos tokens na região de edição para os tokens na contraparte do vídeo fonte, mitigando assim sua interferência durante a geração de novos objetos no vídeo destino. Adicionalmente, propomos um conjunto de dados de edição de vídeo em larga escala e de alta qualidade, o ReCo-Data, compreendendo 500 mil pares instrução-vídeo para beneficiar o treinamento de modelos. Experimentos extensivos conduzidos em quatro tarefas principais de edição de vídeo baseada em instruções demonstram a superioridade de nossa proposta.
A Geração Aumentada por Recuperação Dinâmica determina adaptativamente quando recuperar informações durante a geração para mitigar alucinações em modelos de linguagem grande (LLMs). No entanto, os métodos existentes dependem de sinais internos do modelo (por exemplo, logits, entropia), que são fundamentalmente não confiáveis porque os LLMs são tipicamente mal calibrados e frequentemente exibem alta confiança em saídas errôneas. Propomos o QuCo-RAG, que muda da confiança subjetiva para estatísticas objetivas calculadas a partir de dados de pré-treinamento. Nosso método quantifica a incerteza através de dois estágios: (1) antes da geração, identificamos entidades de baixa frequência que indicam lacunas de conhecimento de cauda longa; (2) durante a geração, verificamos a co-ocorrência de entidades no corpus de pré-treinamento, onde a co-ocorrência zero frequentemente sinaliza risco de alucinação. Ambos os estágios utilizam o Infini-gram para consultas de latência de milissegundos em mais de 4 trilhões de tokens, acionando a recuperação quando a incerteza é alta. Experimentos em benchmarks de QA multi-hop mostram que o QuCo-RAG alcança ganhos de EM de 5 a 12 pontos sobre as linhas de base state-of-the-art com modelos OLMo-2, e transfere eficazmente para modelos com dados de pré-treinamento não divulgados (Llama, Qwen, GPT), melhorando a EM em até 14 pontos. A generalização de domínio em QA biomédica valida ainda mais a robustez do nosso paradigma. Esses resultados estabelecem a verificação fundamentada no corpus como um paradigma dinâmico e principado para RAG dinâmico, praticamente agnóstico ao modelo. Nosso código está publicamente disponível em https://github.com/ZhishanQ/QuCo-RAG.
A geração de vídeos geometricamente consistentes em longa distância apresenta um dilema fundamental: embora a consistência exija uma adesão estrita à geometria 3D no espaço de píxeis, os modelos generativos de última geração operam com mais eficácia num espaço latente condicionado pela câmara. Esta desconexão faz com que os métodos atuais tenham dificuldades com áreas ocluídas e trajetórias complexas da câmara. Para colmatar esta lacuna, propomos o WorldWarp, uma estrutura que acopla uma âncora estrutural 3D com um refinador generativo 2D. Para estabelecer uma base geométrica, o WorldWarp mantém uma cache geométrica 3D online construída através de *Gaussian Splatting* (3DGS). Ao deformar explicitamente o conteúdo histórico para novas perspetivas, esta cache atua como um andaime estrutural, garantindo que cada novo *frame* respeita a geometria anterior. No entanto, a deformação estática deixa inevitavelmente buracos e artefactos devido a oclusões. Resolvemos isto usando um modelo de Difusão Espaço-Temporal (ST-Diff) concebido para um objetivo de "preencher e revisar". A nossa principal inovação é um esquema de ruído variável espaço-temporal: as regiões em branco recebem ruído total para desencadear a geração, enquanto as regiões deformadas recebem ruído parcial para permitir o refinamento. Ao atualizar dinamicamente a cache 3D em cada passo, o WorldWarp mantém a consistência entre os segmentos do vídeo. Consequentemente, atinge uma fidelidade de última geração ao garantir que a lógica 3D orienta a estrutura enquanto a lógica de difusão aperfeiçoa a textura. Página do projeto: https://hyokong.github.io/worldwarp-page/.
Os recentes avanços em modelos de difusão de vídeo têm despertado um crescente interesse na geração de vídeos com novas perspectivas controladas por câmera para cenas dinâmicas, visando oferecer aos criadores capacidades de controle cinematográfico de câmera na pós-produção. Um desafio fundamental na geração de vídeos controlados por câmera é garantir a fidelidade à pose da câmera especificada, mantendo a consistência de visualização e raciocinando sobre a geometria ocluída a partir de observações limitadas. Para abordar isso, os métodos existentes ou treinam um modelo de geração de vídeo condicionado por trajetória em um conjunto de dados de pares trajetória-vídeo, ou estimam a profundidade a partir do vídeo de entrada para reprojetá-lo ao longo de uma trajetória alvo e gerar as regiões não projetadas. No entanto, os métodos existentes lutam para gerar vídeos de alta qualidade e fiéis à pose da câmera por duas razões principais: (1) as abordagens baseadas em reprojeção são altamente suscetíveis a erros causados por estimativas imprecisas de profundidade; e (2) a diversidade limitada de trajetórias de câmera nos conjuntos de dados existentes restringe os modelos aprendidos. Para superar essas limitações, apresentamos o InfCam, uma estrutura de geração vídeo-para-vídeo controlada por câmera, livre de profundidade e com alta fidelidade de pose. A estrutura integra dois componentes-chave: (1) o *warping* de homografia infinita, que codifica rotações 3D da câmera diretamente no espaço latente 2D de um modelo de difusão de vídeo. Condicionando nesta informação rotacional livre de ruído, o termo residual de paralaxe é previsto através de treinamento *end-to-end* para alcançar alta fidelidade à pose da câmera; e (2) um *pipeline* de aumento de dados que transforma conjuntos de dados sintéticos multivisão existentes em sequências com trajetórias e distâncias focais diversas. Os resultados experimentais demonstram que o InfCam supera os métodos de referência em precisão da pose da câmera e fidelidade visual, generalizando bem de dados sintéticos para dados do mundo real. Link para nossa página do projeto: https://emjay73.github.io/InfCam/
O planejamento de trajetória em ambientes não estruturados é uma capacidade fundamental e desafiadora para robôs móveis. Os pipelines modulares tradicionais sofrem com latência e erros em cascata entre os módulos de perceção, localização, mapeamento e planeamento. Métodos recentes de aprendizagem de ponta a ponta mapeiam observações visuais brutas diretamente para sinais de controlo ou trajetórias, prometendo maior desempenho e eficiência em ambientes de mundo aberto. No entanto, a maioria das abordagens anteriores de ponta a ponta ainda depende de módulos de localização separados que necessitam de calibração extrínseca precisa de sensores para estimativa do estado próprio, limitando assim a generalização entre diferentes implementações e ambientes. Apresentamos o LoGoPlanner, uma estrutura de navegação de ponta a ponta baseada em localização que aborda estas limitações através de: (1) *fine-tuning* de uma rede base de geometria visual de longo horizonte para fundamentar previsões com escala métrica absoluta, fornecendo assim estimativa de estado implícita para localização precisa; (2) reconstrução da geometria da cena circundante a partir de observações históricas para fornecer consciência ambiental densa e granular para uma evitamento de obstáculos fiável; e (3) condicionamento da política em geometria implícita inicializada pelas tarefas auxiliares mencionadas, reduzindo assim a propagação de erros. Avaliamos o LoGoPlanner em ambientes de simulação e do mundo real, onde o seu design totalmente de ponta a ponta reduz o erro cumulativo, enquanto a memória geométrica com noção métrica melhora a consistência do planeamento e a evitamento de obstáculos, resultando numa melhoria superior a 27,3% face a *baselines* com localização idealizada e uma forte generalização entre implementações e ambientes. O código e os modelos foram disponibilizados publicamente na [página do projeto](https://steinate.github.io/logoplanner.github.io/).
A estimação precisa da dificuldade de itens (questões ou tarefas) é crucial para a avaliação educacional, mas sofre com o problema do início frio. Embora os Grandes Modelos de Linguagem demonstrem capacidades de resolução de problemas sobre-humanas, permanece uma questão em aberto se eles podem perceber as dificuldades cognitivas dos aprendizes humanos. Neste trabalho, apresentamos uma análise empírica em larga escala do Alinhamento de Dificuldade Humano-IA para mais de 20 modelos em domínios diversos, como conhecimento médico e raciocínio matemático. Nossos achados revelam um desalinhamento sistemático no qual aumentar a escala do modelo não é de forma confiável útil; em vez de se alinharem com os humanos, os modelos convergem para um consenso maquínico compartilhado. Observamos que o alto desempenho frequentemente impede uma estimativa precisa da dificuldade, pois os modelos lutam para simular as limitações de capacidade dos alunos, mesmo quando explicitamente instruídos a adotar níveis de proficiência específicos. Além disso, identificamos uma falta crítica de introspecção, uma vez que os modelos falham em prever suas próprias limitações. Estes resultados sugerem que a capacidade geral de resolução de problemas não implica uma compreensão das dificuldades cognitivas humanas, destacando o desafio de usar os modelos atuais para a previsão automatizada de dificuldade.
O *flow matching* emergiu como uma abordagem poderosa de modelagem generativa com escolhas flexíveis de distribuição de origem. Embora as distribuições Gaussianas sejam comumente utilizadas, o potencial de alternativas melhores para a geração de dados de alta dimensão permanece largamente inexplorado. Neste artigo, propomos uma nova simulação 2D que captura propriedades geométricas de alta dimensão num contexto 2D interpretável, permitindo-nos analisar a dinâmica de aprendizagem do *flow matching* durante o treino. Com base nesta análise, derivamos vários *insights* fundamentais sobre o comportamento do *flow matching*: (1) a aproximação de densidade pode, paradoxalmente, degradar o desempenho devido à discrepância de modos, (2) o alinhamento direcional sofre de emaranhamento de caminhos quando excessivamente concentrado, (3) a cobertura omnidirecional da Gaussiana garante uma aprendizagem robusta, e (4) o desalinhamento de norma incorre em custos de aprendizagem substanciais. Com base nestes *insights*, propomos um quadro prático que combina o treino com alinhamento de norma com uma amostragem com poda direcional. Esta abordagem mantém a supervisão omnidirecional robusta, essencial para uma aprendizagem estável do *flow*, ao mesmo tempo que elimina inicializações em regiões esparsas de dados durante a inferência. Importante, a nossa estratégia de poda pode ser aplicada a qualquer modelo de *flow matching* treinado com uma fonte Gaussiana, fornecendo ganhos imediatos de desempenho sem necessidade de retreino. Avaliações empíricas demonstram melhorias consistentes tanto na qualidade de geração como na eficiência de amostragem. As nossas descobertas fornecem *insights* práticos e diretrizes para o desenho da distribuição de origem e introduzem uma técnica prontamente aplicável para melhorar os modelos existentes de *flow matching*. O nosso código está disponível em https://github.com/kwanseokk/SourceFM.
A capacidade de exploração molda tanto o desempenho em tempo de inferência quanto o treinamento por reforço (RL) para grandes modelos de (visão e) linguagem, uma vez que a amostragem estocástica frequentemente produz caminhos de raciocínio redundantes com pouca diversidade em alto nível. Este artigo propõe o *Reasoning Palette*, uma nova estrutura de modulação latente que dota o modelo com uma variável latente estocástica para contextualização estratégica, orientando seu planejamento interno antes da geração de tokens. Este contexto latente é inferido a partir da incorporação *mean-pooled* de um par pergunta-resposta por meio de um *variational autoencoder* (VAE), onde cada latente amostrado codifica potencialmente um contexto de raciocínio distinto. Durante a inferência, um latente amostrado é decodificado em prefixos de tokens aprendíveis e anexado ao *prompt* de entrada, modulando a trajetória de raciocínio interna do modelo. Dessa forma, o modelo realiza uma amostragem interna sobre estratégias de raciocínio antes da geração da saída, o que molda o estilo e a estrutura de toda a sequência de resposta. Uma breve fase de aquecimento de ajuste fino supervisionado (SFT) permite que o modelo se adapte a esse condicionamento latente. Dentro da otimização por RL, o *Reasoning Palette* facilita a exploração estruturada ao permitir a injeção sob demanda de modos de raciocínio diversos, aumentando significativamente a eficiência da exploração e a capacidade de aprendizado sustentado. Experimentos em vários benchmarks de raciocínio demonstram que nosso método permite um controle interpretável e controlável sobre o comportamento estratégico do modelo de (visão e) linguagem, alcançando, assim, ganhos de desempenho consistentes em relação aos métodos padrão de RL.
A capacitação de agentes eficazes baseados em Large Language Models (LLMs) é severamente limitada pelo alto custo e pela natureza estática dos dados de interação do mundo real. Nós abordamos este problema introduzindo o GenEnv, um framework que estabelece um jogo coevolutivo, alinhado por dificuldade, entre um agente e um simulador de ambiente generativo e escalável. Diferente dos métodos tradicionais que evoluem modelos em conjuntos de dados estáticos, o GenEnv instancia uma evolução de dados: o simulador atua como uma política de currículo dinâmico, gerando continuamente tarefas especificamente adaptadas à "zona de desenvolvimento proximal" do agente. Este processo é guiado por uma simples mas eficaz Recompensa de Currículo-α, que alinha a dificuldade da tarefa com as capacidades atuais do agente. Avaliamos o GenEnv em cinco benchmarks, incluindo API-Bank, ALFWorld, BFCL, Bamboogle e TravelPlanner. Nestas tarefas, o GenEnv melhora o desempenho do agente em até +40,3% em relação às linhas de base de 7B (7 bilhões de parâmetros) e iguala ou supera o desempenho médio de modelos maiores. Em comparação com a aumentação de dados offline baseada no Gemini 2.5 Pro, o GenEnv alcança um desempenho superior utilizando 3,3 vezes menos dados. Ao mudar da supervisão estática para a simulação adaptativa, o GenEnv fornece um caminho eficiente em dados para escalar as capacidades dos agentes.
Os grandes modelos de linguagem (LLMs) demonstraram capacidades notáveis em tarefas de geração de código. No entanto, a sua eficácia depende fortemente do treino supervisionado com conjuntos de dados extensos, rotulados (por exemplo, pares de pergunta-resposta) ou não rotulados (por exemplo, fragmentos de código), que são frequentemente dispendiosos e difíceis de obter em escala. Para superar esta limitação, este artigo introduz um método denominado IPC, uma estrutura não supervisionada que aproveita o *Internal Probing* (Sondagem Interna) de LLMs para geração de código, sem qualquer corpus externo, incluindo até fragmentos de código não rotulados. Introduzimos a sondagem do espaço do problema, a sondagem da compreensão do teste, a sondagem do espaço de solução e a consolidação e reforço do conhecimento para sondar os padrões de conhecimento interno e de confiança existentes nos LLMs. Adicionalmente, o IPC identifica candidatos a código fiáveis através de mecanismos de auto-consistência e de estimativa de qualidade baseada em representações para treinar o UCoder (*coder* com aprendizagem não supervisionada). Validamos a abordagem proposta em vários *benchmarks* de código, demonstrando que os métodos não supervisionados podem alcançar um desempenho competitivo em comparação com abordagens supervisionadas, reduzindo significativamente a dependência de dados rotulados e de recursos computacionais. Experiências analíticas revelam que os estados internos do modelo contêm sinais ricos sobre a qualidade e correção do código, e que aproveitar adequadamente estes sinais permite uma aprendizagem não supervisionada eficaz para tarefas de geração de código, abrindo novas direções para o treino de LLMs de código em cenários com recursos limitados.
A narrativa visual requer a geração de vídeos com múltiplos planos de qualidade cinematográfica e consistência de longo alcance. Inspirados pela memória humana, propomos o StoryMem, um paradigma que reformula a narrativa de vídeo de longa duração como uma síntese iterativa de planos condicionada a uma memória visual explícita, transformando modelos de difusão de vídeo pré-treinados para planos únicos em narradores de múltiplos planos. Isto é alcançado por um novo design Memória-para-Vídeo (M2V), que mantém um banco de memória compacto e dinamicamente atualizado com *keyframes* dos planos históricos gerados. A memória armazenada é então injetada nos modelos de difusão de vídeo para planos únicos através de concatenação latente e deslocamentos negativos de RoPE, utilizando apenas ajuste fino com LoRA. Uma estratégia de seleção semântica de *keyframes*, juntamente com uma filtragem por preferência estética, garante ainda uma memória informativa e estável ao longo da geração. Além disso, a estrutura proposta acomoda naturalmente transições suaves entre planos e aplicações de geração de histórias personalizadas. Para facilitar a avaliação, introduzimos o ST-Bench, um *benchmark* diversificado para narrativa visual com múltiplos planos. Experimentos extensivos demonstram que o StoryMem alcança uma consistência superior entre planos em comparação com métodos anteriores, preservando alta qualidade estética e aderência ao *prompt*, representando um passo significativo em direção à narrativa visual coerente com minutos de duração.
Os Modelos de Linguagem de Grande Porte por Difusão (dLLMs) demonstraram potencial significativo para inferência de alta velocidade. No entanto, as atuais estratégias de decodificação baseadas em confiança são limitadas pelo paralelismo reduzido, tipicamente alcançando apenas 1 a 3 tokens por passagem direta (TPF). Neste trabalho, identificamos que o grau de paralelismo durante a inferência de dLLMs é altamente sensível à Ordem de Preenchimento de Tokens (TFO). Em seguida, introduzimos o LoPA (Lookahead PArallel Decoding), um algoritmo *plug-and-play* que não requer treinamento, para identificar uma TFO superior e, assim, acelerar a inferência. O LoPA explora concorrentemente distintas TFOs candidatas por meio de ramos paralelos e seleciona aquela com maior potencial de paralelismo futuro com base na confiança do ramo. Aplicamos o LoPA ao modelo state-of-the-art D2F e observamos um aprimoramento substancial na eficiência de decodificação. Notavelmente, o LoPA aumenta o TPF do D2F-Dream para 10,1 no conjunto GSM8K, mantendo um desempenho superior à linha de base Dream. Adicionalmente, para viabilizar esse grau de paralelismo sem precedentes, desenvolvemos um sistema de inferência especializado multi-dispositivo com Paralelismo de Ramos (BP), que atinge uma taxa de transferência por amostra única de 1073,9 tokens por segundo em implantação multi-GPU. O código está disponível em https://github.com/zhijie-group/LoPA.
Entre os benchmarks existentes para uso móvel online, o AndroidWorld emergiu como o benchmark dominante devido ao seu ambiente reproduzível e avaliação determinística; no entanto, os recentes agentes que alcançam taxas de sucesso superiores a 90% indicam sua saturação e motivam a necessidade de um benchmark mais desafiador. Além disso, seu ambiente carece de categorias de aplicativos-chave, como comércio eletrônico e comunicação empresarial, e não reflete cenários realistas de uso móvel, caracterizados por instruções vagas do usuário e uso híbrido de ferramentas. Para preencher essa lacuna, introduzimos o MobileWorld, um benchmark substancialmente mais desafiador, projetado para refletir melhor o uso real de dispositivos móveis, compreendendo 201 tarefas em 20 aplicativos, mantendo o mesmo nível de avaliação reproduzível do AndroidWorld. A dificuldade do MobileWorld é dupla. Primeiro, ele enfatiza tarefas de longo horizonte com interações entre aplicativos: o MobileWorld requer quase o dobro de etapas para conclusão de tarefas em média (27,8 vs. 14,3) e inclui muito mais tarefas multi-aplicativo (62,2% vs. 9,5%) em comparação com o AndroidWorld. Segundo, o MobileWorld vai além da manipulação padrão de GUI, introduzindo novas categorias de tarefas, incluindo interação agente-usuário e tarefas aumentadas por MCP. Para garantir uma avaliação robusta, fornecemos um ambiente de contêiner baseado em snapshot e verificações funcionais precisas, incluindo inspeção de banco de dados backend e APIs de callback de tarefas. Desenvolvemos ainda uma estrutura agentiva planejador-executor com espaços de ação estendidos para suportar interações do usuário e chamadas MCP. Nossos resultados revelam uma queda acentuada no desempenho em comparação com o AndroidWorld, com a melhor estrutura agentiva e o modelo end-to-end alcançando taxas de sucesso de 51,7% e 20,9%, respectivamente. Nossa análise mostra que os modelos atuais têm dificuldades significativas com a interação do usuário e chamadas MCP, oferecendo um roteiro estratégico para uma inteligência móvel de próxima geração mais robusta.
Os modelos visão-linguagem (VLMs) são normalmente treinados inserindo tokens de imagem de um codificador visual pré-treinado no fluxo textual de um modelo de linguagem. Isso permite que informações textuais e visuais se atendam mutuamente dentro do modelo, mas torna-se extremamente custoso para imagens de alta resolução, conversas longas ou vídeos em streaming, tanto em memória quanto em computação. Os VLMs que utilizam atenção cruzada são uma alternativa eficiente à inserção de tokens, mas exibem uma lacuna de desempenho clara, particularmente em tarefas que envolvem detalhes visuais refinados. Descobrimos que uma chave para melhorar tais modelos é também permitir a interação local texto-a-texto nas camadas dedicadas de atenção cruzada. Com base nisso, propomos o CASA, Cross-Attention via Self-Attention, um paradigma simples e eficiente que reduz substancialmente a lacuna com a inserção total de tokens em benchmarks comuns de compreensão de imagem, ao mesmo tempo que oferece a mesma escalabilidade dos modelos de atenção cruzada quando aplicados a tarefas multimodais de contexto longo, como a legendagem de vídeos em streaming. Para amostras e código, consulte nossa página do projeto em https://kyutai.org/casa.
Nos fluxos profissionais de composição de vídeo, os artistas precisam criar manualmente interações ambientais - como sombras, reflexos, poeira e respingos - entre os elementos em primeiro plano e as camadas de fundo. Os modelos generativos de vídeo existentes têm dificuldade em preservar o vídeo de entrada ao adicionar tais efeitos, e os métodos atuais de inpaintng de vídeo exigem máscaras custosas por quadro ou produzem resultados implausíveis. Introduzimos a composição aumentada, uma nova tarefa que sintetiza efeitos ambientais realistas e semitransparentes condicionados por prompts textuais e camadas de vídeo de entrada, preservando a cena original. Para abordar esta tarefa, apresentamos o Over++, um framework de geração de efeitos em vídeo que não faz suposições sobre pose da câmera, estacionariedade da cena ou supervisão de profundidade. Construímos um conjunto de dados de efeitos pareados específico para esta tarefa e introduzimos uma estratégia de aumento não pareado que preserva a editabilidade orientada por texto. Nosso método também suporta controle opcional por máscara e orientação por keyframes sem exigir anotações densas. Apesar de treinado com dados limitados, o Over++ produz efeitos ambientais diversos e realistas e supera as linhas de base existentes tanto na geração de efeitos quanto na preservação da cena.
Antes do fechamento de rodadas de financiamento de capital de risco, os advogados realizam uma due diligence que inclui a reconciliação da tabela de capitalização: verificando se cada título (por exemplo, ações, opções, warrants) e condição de emissão (por exemplo, cronogramas de vesting, gatilhos de aceleração, restrições de transferência) possui suporte em grandes conjuntos de documentação legal subjacente. Embora os LLMs continuem a melhorar em benchmarks jurídicos, fluxos de trabalho jurídicos especializados, como a reconciliação de capitalização, permanecem fora do alcance mesmo para sistemas agentes robustos. A tarefa exige raciocínio multi-documental, rastreabilidade estrita de evidências e resultados determinísticos que as abordagens atuais não conseguem fornecer de forma confiável. Caracterizamos a reconciliação de capitalização como um exemplo de benchmark do mundo real para IA jurídica, analisamos e comparamos o desempenho de sistemas agentes existentes, e propomos uma arquitetura de modelo mundial para automação da reconciliação - e, mais amplamente, como base para a inteligência jurídica aplicada.
A modelagem manual de parâmetros materiais e geometria 3D é uma tarefa demorada, porém essencial, nas indústrias de jogos e cinema. Embora avanços recentes em reconstrução 3D tenham possibilitado aproximações precisas da geometria e aparência de cenas, esses métodos frequentemente falham em cenários de rerrenderização devido à falta de parâmetros materiais precisos e espacialmente variáveis. Paralelamente, modelos de difusão que operam em imagens 2D demonstraram forte desempenho na previsão de propriedades de renderização com base física (PBR), como albedo, rugosidade e metalicidade. No entanto, transferir esses mapas materiais 2D para geometrias 3D reconstruídas permanece um desafio significativo. Propomos uma estrutura para fusão de dados materiais 2D em geometria 3D usando uma combinação de novas abordagens baseadas em aprendizado e projeção. Iniciamos reconstruindo a geometria da cena via *Gaussian Splatting*. A partir das imagens de entrada, um modelo de difusão gera mapas 2D para os parâmetros de albedo, rugosidade e metalicidade. Qualquer modelo de difusão existente capaz de converter imagens ou vídeos em materiais PBR pode ser aplicado. As previsões são então integradas na representação 3D, seja otimizando uma função de perda baseada em imagem, seja projetando diretamente os parâmetros materiais sobre os Gaussianos usando *ray tracing* Gaussiano. Para melhorar a precisão em escala fina e a consistência multi-visada, introduzimos ainda uma etapa de refinamento neural leve (*Neural Merger*), que recebe características materiais calculadas por *ray tracing* como entrada e produz ajustes detalhados. Nossos resultados demonstram que os métodos propostos superam as técnicas existentes tanto em métricas quantitativas quanto no realismo visual percebido. Isso possibilita renderizações mais precisas, rerrenderizáveis e fotorrealistas a partir de cenas reconstruídas, melhorando significativamente o realismo e a eficiência dos fluxos de trabalho de criação de *assets* em pipelines de produção de conteúdo.
Os recentes avanços na aprendizagem de robôs têm sido impulsionados por conjuntos de dados em larga escala e arquiteturas de políticas visuomotoras poderosas. No entanto, a robustez das políticas continua limitada pelo custo substancial da recolha de demonstrações diversificadas, particularmente para a generalização espacial em tarefas de manipulação. Para reduzir a recolha repetitiva de dados, apresentamos o Real2Edit2Real, uma estrutura que gera novas demonstrações ao unir a editabilidade 3D com dados visuais 2D através de uma interface de controlo 3D. A nossa abordagem reconstrói primeiro a geometria da cena a partir de observações RGB multi-vista com um modelo de reconstrução 3D em escala métrica. Com base na geometria reconstruída, realizamos edição 3D confiável em profundidade em nuvens de pontos para gerar novas trajetórias de manipulação, corrigindo geometricamente as poses do robô para recuperar uma profundidade fisicamente consistente, que serve como condição confiável para sintetizar novas demonstrações. Finalmente, propomos um modelo de geração de vídeo multi-condicional guiado pela profundidade como sinal de controlo primário, juntamente com mapas de ação, de bordas e de raios, para sintetizar vídeos de manipulação multi-vista espacialmente aumentados. Experiências em quatro tarefas de manipulação do mundo real demonstram que políticas treinadas com dados gerados a partir de apenas 1-5 demonstrações de origem podem igualar ou superar aquelas treinadas com 50 demonstrações reais, melhorando a eficiência dos dados em até 10-50 vezes. Além disso, resultados experimentais em edição de altura e textura demonstram a flexibilidade e extensibilidade da estrutura, indicando o seu potencial para servir como uma estrutura unificada de geração de dados.
Os assistentes de IA produzem código vulnerável em 45% dos cenários relevantes para segurança, introduzindo falhas em sistemas de produção em larga escala. No entanto, os conjuntos de dados existentes sobre codificação segura são insuficientes. Eles carecem de fundamentação em incidentes reais, não oferecem a escala necessária para o treinamento moderno e faltam o contexto operacional de segurança que os desenvolvedores precisam para implantações em produção. Apresentamos o SecureCode v2.0, um conjunto de dados de nível de produção com 1.215 exemplos de codificação focados em segurança que passaram por validação estrutural e revisão de segurança especializada. Cada exemplo está vinculado a incidentes de segurança reais documentados com referências a CVE, fornece implementações vulneráveis e seguras, demonstra ataques concretos e inclui orientações operacionais de defesa em profundidade. O conjunto de dados abrange 11 categorias de vulnerabilidades (o OWASP Top 10 completo:2025 mais Ameaças de Segurança de IA/ML) em 11 linguagens (Python, JavaScript, Java, Go, PHP, C#, TypeScript, Ruby, Rust, Kotlin e YAML para infraestrutura como código). Nossa estrutura de garantia de qualidade assegura a fundamentação completa em incidentes. Cada exemplo inclui estratégias de integração com SIEM, recomendações de proteção de infraestrutura (configurações de Docker, AppArmor, WAF) e abordagens de teste usando estruturas apropriadas para cada linguagem. O conjunto de dados utiliza uma estrutura conversacional de 4 turnos que espelha as interações reais entre desenvolvedor e IA, evoluindo de implementações básicas para considerações de segurança avançadas e orientações de defesa em profundidade. Nossas contribuições: (1) 1.215 exemplos rigorosamente validados divididos em 989 para treinamento, 122 para validação e 104 para teste, (2) uma estrutura de validação automatizada que garante a consistência do conjunto de dados, (3) uma estrutura conversacional de 4 turnos que captura fluxos de trabalho de segurança realistas, (4) orientação abrangente de segurança operacional com estratégias de integração SIEM, (5) fidelidade completa de implementação específica por linguagem e (6) lançamento em código aberto dos dados, ferramentas de validação e protocolos de benchmark.
Abordamos a segmentação semântica de partes 3D: a decomposição de objetos em partes com nomes significativos. Embora existam conjuntos de dados com anotações de partes, suas definições são inconsistentes entre os conjuntos, limitando o treinamento robusto. Métodos anteriores produzem decomposições não rotuladas ou recuperam partes individuais sem anotações completas da forma. Propomos o ALIGN-Parts, que formula a nomeação de partes como uma tarefa direta de alinhamento de conjuntos. Nosso método decompõe formas em *partlets* — representações implícitas de partes 3D — correspondidas a descrições de partes por meio de atribuição bipartida. Combinamos pistas geométricas de campos de partes 3D, aparência de características visuais multi-view e conhecimento semântico de descrições de affordance geradas por modelos de linguagem. Uma perda de alinhamento de texto garante que os *partlets* compartilhem o espaço de incorporação com o texto, permitindo uma configuração teoricamente de vocabulário aberto para correspondência, dado dados suficientes. Nosso método eficiente e novo de segmentação e nomeação de partes 3D em *uma única etapa* encontra aplicações em várias tarefas subsequentes, incluindo servir como um mecanismo de anotação escalável. Como nosso modelo suporta correspondência *zero-shot* a descrições arbitrárias e previsões calibradas por confiança para categorias conhecidas, com verificação humana, criamos uma ontologia unificada que alinha PartNet, 3DCoMPaT++ e Find3D, consistindo em 1.794 partes 3D únicas. Também mostramos exemplos de nosso novo conjunto de dados Tex-Parts. Introduzimos ainda duas novas métricas apropriadas para a tarefa de segmentação de partes 3D nomeadas.
Estudamos o raciocínio silogístico em LLMs sob as perspectivas lógica e de linguagem natural. Neste processo, exploramos as capacidades fundamentais de raciocínio dos LLMs e a direção para a qual esta pesquisa avança. Para auxiliar nossos estudos, utilizamos 14 modelos de linguagem grandes e investigamos suas capacidades de raciocínio silogístico em termos de inferências simbólicas, bem como de compreensão de linguagem natural. Embora este mecanismo de raciocínio não seja uma propriedade emergente uniforme entre os LLMs, o desempenho simbólico perfeito em certos modelos nos faz questionar se os LLMs estão se tornando mecanismos de raciocínio formal cada vez mais sofisticados, em vez de explicitar as nuances do raciocínio humano.
Os métodos de interpretabilidade para modelos de linguagem de grande escala (LLMs) geralmente derivam direções a partir de supervisão textual, o que pode carecer de fundamentação externa. Propomos usar a atividade cerebral humana não como um sinal de treinamento, mas como um sistema de coordenadas para ler e direcionar os estados dos LLMs. Utilizando o conjunto de dados SMN4Lang MEG, construímos um atlas cerebral em nível de palavra de padrões de valor de faseamento (PLV) e extraímos eixos latentes via ICA. Validamos os eixos com léxicos independentes e etiquetas baseadas em NER (POS/frequência logarítmica usadas como verificações de sanidade), depois treinamos adaptadores leves que mapeiam os estados ocultos do LLM para esses eixos cerebrais sem ajustar o LLM. O direcionamento ao longo das direções derivadas do cérebro resulta em um eixo lexical robusto (ligado à frequência) em uma camada intermediária do TinyLlama, sobrevivendo a controles pareados por perplexidade, e uma comparação de sonda cérebro-vs-texto mostra maiores desvios de frequência logarítmica (em relação à sonda de texto) com menor perplexidade para o eixo cerebral. Um eixo função/conteúdo (eixo 13) mostra direcionamento consistente no TinyLlama, Qwen2-0.5B e GPT-2, com corroboração em nível de texto pareada por PPL. Os efeitos na camada 4 do TinyLlama são grandes, mas inconsistentes, portanto, nós os tratamos como secundários (Apêndice). A estrutura do eixo é estável quando o atlas é reconstruído sem características de mudança de incorporação do GPT ou com incorporações word2vec (|r|=0.64-0.95 entre eixos pareados), reduzindo preocupações de circularidade. A ancoragem exploratória com fMRI sugere um alinhamento potencial para mudança de incorporação e frequência logarítmica, mas os efeitos são sensíveis a pressupostos de modelagem hemodinâmica e são tratados apenas como evidência em nível populacional. Estes resultados suportam uma nova interface: eixos fundamentados em neurofisiologia fornecem alavancas interpretáveis e controláveis para o comportamento dos LLMs.