Por que a modelagem de ameaças tradicional falha em sistemas de IA generativa

4 de janeiro de 2026 · 6 min de leitura · 📚 ai-security

ai security machine-learning generative-ai threat-modeling intermediate

Índice

Introdução

A modelagem de ameaças tradicional assume que sistemas são amplamente determinísticos, que componentes possuem interfaces estáveis e que adversários exploram fraquezas específicas e enumeráveis. Sistemas de IA generativa violam essas premissas em um nível fundamental: são estocásticos, seu comportamento é distribucional em vez de funcional, e frequentemente estão embutidos em pipelines dinâmicos onde saídas podem alterar o ambiente. O resultado não é simplesmente uma modelagem de ameaças “mais complexa”, mas uma incompatibilidade categórica entre métodos clássicos e a superfície de segurança real.

Este ensaio explica por que essa incompatibilidade ocorre, quais premissas teóricas se quebram e como o pensamento de segurança precisa se adaptar quando o comportamento central do sistema é probabilístico e sensível ao contexto.

1) A modelagem de ameaças assume semântica determinística

Em software clássico, raciocinamos sobre um mapeamento $f: X \to Y$ e perguntamos onde ele pode violar propriedades de segurança. Um modelo de capacidade adversária (por exemplo, STRIDE, árvores de ataque) tipicamente presume que, se as entradas são controladas, o comportamento do sistema é previsível. O objeto implícito é uma função, com raros elementos estocásticos tratados como ruído.

A IA generativa substitui $f$ por uma distribuição condicional:

P(y \mid x) \quad \text{or} \quad P(y_{1:T} \mid x) = \prod_{t=1}^{T} P(y_t \mid x, y_{<t}).

Propriedades de segurança não são mais predicados binários sobre saídas. São expectativas, intervalos de confiança e probabilidades de cauda. Isso não é um detalhe superficial: quebra a lógica de “enumerar e corrigir” da modelagem de ameaças tradicional.

2) O risco se torna distribucional, não baseado em eventos

A modelagem de ameaças clássica pergunta: “O sistema pode alcançar um estado inseguro?” Para modelos generativos, a pergunta mais precisa é: “Quanta massa de probabilidade está em saídas inseguras?” Se $\mathcal{U}$ é a região insegura, o risco é:

\mathrm{Risk}(x) = P(y \in \mathcal{U} \mid x).

Um sistema pode ser seguro em expectativa, mas inseguro em contextos adversarialmente selecionados. O objetivo do adversário se torna um de direcionamento de probabilidade: encontrar prompts ou contextos que desloquem massa em direção a $\mathcal{U}$ . Isso não se assemelha a explorar um único bug; se assemelha a manipular uma distribuição.

3) A superfície de ameaça inclui priors do modelo e correlações latentes

Modelos tradicionais de ameaças assumem que o comportamento é controlado por caminhos de código explícitos e restrições explícitas. Sistemas generativos, no entanto, mesclam instrução, conteúdo e conhecimento prévio em espaço latente. Um prompt não é apenas uma entrada; é um vetor de contexto que repondera a variedade interna do modelo. Isso dá aos adversários alavancagem sobre correlações latentes que não são explicitamente representadas no código.

A implicação de segurança é que as vulnerabilidades do sistema não são necessariamente descobríveis por inspeção de código. Elas podem existir em regularidades estatísticas aprendidas a partir dos dados e, portanto, não são enumeráveis de forma organizada nem exaustivamente testáveis.

4) Composabilidade cria dinâmicas de retroalimentação

Sistemas generativos são tipicamente embutidos em pipelines maiores — recuperação, ferramentas, feedback de usuários ou fluxos multi-agente. Em tal sistema, a saída não é um ponto final; é uma ação que modifica o ambiente. Se $s$ é o estado do ambiente e $y$ é uma saída gerada, então:

(s_{t+1}, x_{t+1}) = F(s_t, y_t), \quad y_t \sim P(\cdot \mid x_t).

Isso cria um sistema dinâmico onde saídas de baixa probabilidade podem desencadear grandes transições de estado. A modelagem de ameaças tradicional, que trata componentes como isolados e amplamente estáticos, não considera loops de retroalimentação probabilísticos. O adversário pode explorar as dinâmicas do sistema, não apenas saídas individuais.

5) Controles de segurança se tornam componentes probabilísticos

Filtros de segurança, políticas de recusa ou classificadores pós-hoc são, eles próprios, probabilísticos. Um filtro $g_\psi$ que bloqueia saídas inseguras produz uma distribuição filtrada:

P'(y \mid x) \propto P(y \mid x) \cdot \mathbf{1}[g_\psi(y) \leq \delta].

Isso não produz uma garantia rígida; remodela a distribuição. Falsos negativos se tornam riscos de cauda, e a filtragem introduz novas fronteiras de decisão que podem ser exploradas. Um modelo tradicional de ameaças pode tratar um filtro como um “controle”, mas na prática ele é apenas mais um elemento estocástico na cadeia.

6) Amostragem repetida amplifica risco de cauda

Em sistemas determinísticos, consultas repetidas não alteram resultados. Em sistemas probabilísticos, amostragem repetida aumenta a probabilidade de um evento inseguro raro. Se a cauda insegura é $p$ , então após $k$ tentativas a chance de observar pelo menos uma saída insegura é:

1 - (1 - p)^k.

Assim, mesmo riscos de cauda pequenos se tornam operacionalmente significativos em implantações de alto volume ou sob consultas adversárias. Modelos clássicos de ameaças raramente quantificam o efeito da pressão de amostragem; em sistemas generativos, isso é central.

7) Equívocos que comprometem a análise de segurança

Equívoco 1: “Decodificação determinística torna o sistema seguro.” Decodificação determinística reduz variância, mas não garante segurança. A completação mais provável ainda pode ser insegura em contextos adversários. Segurança diz respeito ao mapeamento $x \mapsto P(y \mid x)$ , não ao ruído de amostragem.

Equívoco 2: “Alinhamento remove risco adversário.” Alinhamento desloca a distribuição; não remove regiões inseguras. Um modelo alinhado ainda pode ter caudas exploráveis, e o próprio objetivo de alinhamento pode ser distribucionalmente frágil sob manipulação de prompt.

Equívoco 3: “A modelagem de ameaças pode ser feita por prompt.” Análise no nível de prompt ignora composabilidade. Em um sistema real, prompts são gerados por outros componentes e podem ser influenciados por saídas, criando loops de retroalimentação que violam premissas estáticas.

8) Limites teóricos: sem restrições rígidas, apenas limites

A modelagem de ameaças clássica presume que um sistema pode ser endurecido para satisfazer restrições estritas. Modelos generativos não possuem mecanismo intrínseco para restrições rígidas; eles aproximam uma distribuição. No melhor dos casos, podemos limitar o risco ou reduzir a probabilidade de cauda. Mesmo se fosse possível definir restrições no espaço latente, aplicá-las de forma consistente em todos os contextos ainda é um problema em aberto.

A robustez deveria, portanto, ser definida em termos distribucionais, por exemplo via limites de divergência:

D_{\mathrm{KL}}\big(P(\cdot \mid x) \;\|\; P(\cdot \mid x+\epsilon)\big).

Divergência grande sob pequenas perturbações indica fragilidade e, consequentemente, maior alavancagem adversária. Esses não são artefatos de implementação; são propriedades estruturais de modelos estatísticos de alta dimensionalidade.

9) Implicações para a prática de modelagem de ameaças

A falha da modelagem de ameaças tradicional não implica que a modelagem de ameaças é inútil. Implica que a unidade de análise precisa mudar. Um modelo de ameaças útil para IA generativa deve:

Tratar o risco como distribucional e quantificar probabilidades de cauda.
Incorporar consultas adversárias e pressão de amostragem.
Modelar composabilidade e retroalimentação do ambiente.
Tratar controles de segurança como componentes estocásticos com calibração e riscos de falso negativo.
Limitar explicitamente a incerteza e reconhecer modos de falha em aberto.

Isso se assemelha mais a análise de risco adversário e teoria de decisão robusta do que a checklists de segurança de software.

Conclusão

A modelagem de ameaças tradicional pressupõe semântica determinística, componentes estáticos e vulnerabilidades corrigíveis. Sistemas de IA generativa violam essas premissas. Suas propriedades de segurança são estatísticas e distribucionais, suas superfícies de ataque são moldadas por correlações latentes, e seus modos de falha são amplificados por amostragem repetida e retroalimentação do sistema.

A resposta correta não é abandonar a modelagem de ameaças, mas revisá-la a partir de primeiros princípios: de enumerar falhas para limitar distribuições, de análise estática para risco dinâmico, e de garantias binárias de segurança para incerteza calibrada. Qualquer coisa menos arrisca falsa confiança em sistemas que são, por design, probabilísticos.

Próximo na série

Implicações de segurança do raciocínio probabilístico em IA generativa