First page Back Continue Last page Overview Graphics
Bayesovský filtr
- idea: pro každý e-mail spočítáme pravděpodobnost, že se jedná o spam
- pro každé slovo si filtr pamatuje, jaká je pravděpodobnost, že e-mail obsahující toto slovo je spam- na počátu vezměme dvě složky, jedna se spamem a druhá s hamem
- pro každé slovo spočítáme P(w) = počet výskytů w (spam)/počet všech výskytů w
- tím získáme pravděpodobnost, že dané slovo je součástí spamu
- zde je potřeba učení, často se filtr učí stále  (např. pokud zhodnotí e-mail špatně)
 
- při hodnocení e-mailu se spočítá geometrický průměr z pravděpodobností, že slova v e-mailu určují spam- tento postup se kvůli optimalizacím aplikuje  pouze na zajímavá slova (ta, která jsou extrémní – buď indikují, že se jedná  o spam, nebo ta, která indikují ham)
 
- filtr je potřeba naučit pomocí hamů pro každého uživatele (skupinu uživatelů zvlášť)