Tiek vākti statistiski dati par uzņēmēja ražoto preču realizāciju vasarās periodā. Ar iegūto datu palīdzību jāaprēķina vēl 14 ierakstu nezināmās klases. Tā kā abās tabulās ir atšķirīgi dati (1.tab dati ir kategoriskie, 2.tab skaitliskie), tad aprēķinam jāizmanto dažādas metodes:
Pirmajā daļā – Naivs Baijes
Otrajā - „K tuvākie kaimiņi”
Dati ir radīti mākslīgi.
Teorētiskais pamatojums
Naiva Baijesa klasifikators
Naivs Baijes piedāvā sekojošu formulu, lai notiktu konkrēto klasifikāciju CNB:„K tuvākie kaimiņi”
Pirms datu klasificēšanas ar „k tuvāko kaimiņu” metodi, vispirms ir ieteicams normalizēt datus, ja to vērtības ir pārāk atšķirīgas. Pretējā gadījumā iegūtie rezultāti nebūs korekti. Pastāv četri normalizācijas veidi:
normalizācija caur decimālo mērogošanu
min-max normalizācija
z-novērtējuma normalizācija ar standarta novirzi
z-novērtējuma normalizācija ar vidējo absolūto novirzi.
Normalizācija caur decimālo mērogošanu pārveido datus bīdot komatu. …