Bayesovský filtr

idea: pro každý e-mail spočítáme pravděpodobnost, že se jedná o spam
pro každé slovo si filtr pamatuje, jaká je pravděpodobnost, že e-mail obsahující toto slovo je spam
- na počátu vezměme dvě složky, jedna se spamem a druhá s hamem
- pro každé slovo spočítáme P(w) = počet výskytů w (spam)/počet všech výskytů w
- tím získáme pravděpodobnost, že dané slovo je součástí spamu
- zde je potřeba učení, často se filtr učí stále (např. pokud zhodnotí e-mail špatně)
při hodnocení e-mailu se spočítá geometrický průměr z pravděpodobností, že slova v e-mailu určují spam
- tento postup se kvůli optimalizacím aplikuje pouze na zajímavá slova (ta, která jsou extrémní – buď indikují, že se jedná o spam, nebo ta, která indikují ham)
filtr je potřeba naučit pomocí hamů pro každého uživatele (skupinu uživatelů zvlášť)

idea: pro každý e-mail spočítáme pravděpodobnost, že se jedná o spam