Добавить работы Отмеченные0
Работа успешно отмечена.

Отмеченные работы

Просмотренные0

Просмотренные работы

Корзина0
Работа успешно добавлена в корзину.

Корзина

Регистрация

интернет библиотека
Atlants.lv библиотека
12,99 € В корзину
Добавить в список желаний
Хочешь дешевле?
Идентификатор:556793
 
Автор:
Оценка:
Опубликованно: 24.11.2005.
Язык: Латышский
Уровень: Университет
Литературный список: 17 единиц
Ссылки: Использованы
Содержание
Nr. Название главы  Стр.
  IEVADS    13
1.  Uzdevuma nostādne    14
1.1.  Uzdevuma saturīgā nostādne    14
1.2.  Uzdevuma formālā nostādne    15
2.  Izmantotās metodes    16
2.1.  Jēdzienu vispārināšana pēc pazīmēm algoritms CORA    16
2.1.1.  CORA klasifikācijas algoritms    17
2.1.2.  Secīgās pārklāšanas metode    19
2.1.3.  Loģiskā bloka uzdevums (CORA)    20
2.1.3.1.  Loģiskās funkcijas meklēšana pa daļām    21
2.1.4.  Konjunkciju atlases kritēriji    22
2.1.4.1.  Atcerēšanās kritērijs (slieksnis)    23
2.1.4.2.  Neatkarības pakāpes kritērijs    23
2.1.4.3.  Vienas klases piemērotības kritērijs    24
2.1.5.  Pazīmju drošums    25
2.1.6.  Kritēriju izvēle    26
2.1.6.1.  Algoritma pilnveidošana    27
2.1.6.2.  Pazīmju atlases kritēriju novērtēšana    27
2.1.7.  Pazīmes neatkarība    32
2.2.  Risināšanas koki C4.5    33
2.2.1.  Koka izveidošanas algoritms    33
2.2.2.  Jaunu piemēru klasifikācija    36
2.2.3.  Uzlabotājs sadalīšanas kritērijs    37
2.2.4.  Izlaistie dati    38
2.2.5.  Troksnis    40
2.2.6.  Risināšanas koku saīsināšanas metodes    40
2.2.6.1.  Saīsināšana pēc kļūdas grūtības (Err-Comp)    40
2.2.6.2.  Saīsināšana pēc kļūdas minimuma (Min-Err)    42
2.2.6.3.  Saīsināšana pēc kritiskas vērtības (Critical)    42
2.2.6.4.  Saīsināšana pēc kļūdas samazināšanas (Reduce)    42
2.2.6.5.  Saīsināšana pēc pesimistiskas kļūdas (Pessim)    43
2.2.7.  Kross – pārbaude    44
2.2.7.1.  Kross – pārbaude uz pārbaudes kopas    44
2.2.7.2.  V – kārtas kross – pārbaude    44
2.2.7.3.  Globāla kross – pārbaude    45
2.2.8.  Risināšanas koka pārveidošana uz likuma kopu    46
2.3.  AQ amācības algoritma metode    46
2.3.1.  AQ izpildīšanas algoritms    46
2.3.2.  Divdabīgas saites tuvinājums    47
2.3.3.  Trokšņainu piemēru apmācības koncepcija    48
2.3.4.  Vislabākā apraksta multikritērijas atlase    49
2.3.5.  Pilnība, savienojamība un savienojamības pastiprināšana    51
2.3.6.  Likuma kvalitātes definēšana    53
2.3.7.  Likuma kvalitātes kritērija empīriskais salīdzinājums    54
2.3.7.1.  AQ pretrunības pieņemšana    54
2.3.8.  Neparedzētas grūtības    57
2.3.9.  AQ nepilnības pieņemšana    59
2.4.  CN2 induktīva algoritma metode    60
3.  Nopublicēto risināmo metožu apraksts    65
3.1.  Vilsona slimības imunoloģisko radītāju analīze, izmantojot loģiskās – statistiskas metodes    65
3.2.  Smagas IT problēmas Internet problēmu risinājumā    71
3.3.  2D modeļa simbolisku aprakstu apmācība rentgenogrammas attēlu objekta atpazīšanā    73
4.  Teorētiskā daļa    83
4.1.  CORA klasifikācijas algoritms    85
4.2.  AQ induktīvais algoritms    91
4.3.  Risinājumu koku algoritms C4.5    104
4.4.  CN2 induktīvais algoritms    115
5.  Praktiska daļa    132
5.1.  Eksperimentu plāna izstrādāšana    132
5.1.1.  Pareģojoša precizitāte    132
5.1.2.  Visparinājums    133
5.1.3.  Apgabala sarežģītums    133
5.1.4.  Laika sarežģītums    133
5.1.5.  Domēna pārklājums    134
5.2.  Sākumdatu ģenerēšana    134
5.3.  Eksperimentu paveikšana    137
5.3.1.  Pareģošanas precizitāte atkarība no apmācības kopas sadalījuma    137
5.3.2.  10 – kartas kross validācijas pareģošanas precizitāte    143
5.3.3.  Sareždituma, visparinājuma un pārklāšanas kvalitāte    148
5.4.  Praktisko eksperimentu rezultātu analīze    149
6.  Izmantojamas induktīvas sistēmas    151
6.1.  Koncepciju vispārināšanas sistēma Cora    151
6.1.1.  Atribūti    152
6.1.2.  Vērtības    152
6.1.3.  Parametri    152
6.2.  Risinājumu koku induktīva sistēma See5/C5    155
6.2.1.  Risināšanas koku izveidošana- See5/c5.0 sistēma    155
6.2.2.  See5 datu sagatavošana    156
6.2.3.  Lietotāja interfeiss    158
6.2.4.  Risināšanas koka izveidošana    159
6.2.5.  Risināšanas koka likumu kopā pārveidošana    161
6.2.6.  Risinājuma pastiprināšana    162
6.2.7.  Risinājumu pieņemšana izmantojot likumu kopu    162
6.2.8.  Režģu mīkstināšana    163
6.2.9.  Algoritma noskaņošanas iespējas    163
6.2.10.  Krustoša pārbaude    164
6.2.11.  Lielu datu kopas izlase    164
6.2.12.  Klasifikācijas kļūdu izmaksas uzskaite    164
6.2.13.  Klasifikatoru izmantošana    165
6.2.14.  Detalizēta pārbaude un rezultātu saglabāšana    166
6.3.  Induktīva sistēma iAQ    167
6.3.1.  Inter- un intra – saites likumu specifikācijai    170
6.3.2.  AQ20 programmas palaišana    171
6.3.3.  AQ programmatūra    172
6.3.4.  Likumu kopas reprezentācijas apskats    181
6.3.5.  Faila formāts un paskaidrojumi    182
6.3.6.  Parametru tabula    183
6.3.7.  Kritēriju tabulas    190
6.3.8.  Domēna - tipa mainīgo tabulas    192
6.3.9.  Nosaukumu tabulas    193
6.3.10.  Struktūru tabulas    194
6.3.11.  Notikumu un testēšanas notikumu tabulas    196
6.3.12.  Bērnu tabulas    197
6.3.13.  Varsel tabula    198
6.3.14.  Testēšanas likumu kopa    199
6.3.14.1.  Testēšanas metodes    199
6.4.1.  Sistēmas parametri    203
6.4.2.  Piemēru un atribūtu faili    204
6.4.3.  Atribūti    205
6.4.4.  Vertības    205
6.4.5.  Novērtējums    206
  SECINĀJUMI    208
  BIBILIOGRĀFISKAIS SARAKSTS    210
Фрагмент работы

Darbā tika aprakstītas induktīvu secināšanas sistēmu metodoloģijas un to pielietojums reālajā dzīvē. Pamatojoties uz induktīvām sistēmām un izmantojot attiecīgo programmatūru nodrošinājumus, tika paveikti vairāki eksperimenti ar reālajām datu bāzēm un izveidot sistēmu risinājuma analīzi.
Sistēmu analīzei tika izvēlētas fiksētu atribūta vērtību pāris algoritms CORA un naturālo indukciju algoritmi C4.5, AQ20 un CN2. Visas metodes tika detalizēti izskatītas, noteikti notikumu klasifikācijas kritēriji un novērtētas risinājumu likumu kopas, kā arī risinājumu koku kvalitātes kritēriji.
Pamatojoties uz teorētisko daļu, tika izstrādāti eksperimenti, kuri var būt pielietoti četru metožu salīdzināšanai. Eksperimentu veikšanai tika izmantotas četru piemēru klasifikāciju programmatūras, kuru iznākums ir risinājuma koka, sakārtotu un nesakārtotu likumu, kopu veidā. Sistēmu salīdzināšanai un likumu kvalitātes novērtēšanai tika izmantotas divas reālas pasaules datu bāzes Voting un Credit Approval. Datu bāzes ir ļoti interesantas ar saturošiem sevī datiem. Tās satur nepārtrauktus, diskrētus, simboliskus, izlaistus un trokšņainus datus. Pielietojot risinājumu kopas kvalitātes novērtēšanas metriku, tika salīdzinātas sistēmās CORA, C4.5, See5/C5 un CN2 risinājumu koka un risinājumu likumu atpazīšanas kvalitāti. Izmantotā metrika ļauj novērtēt risinājuma kopas precizitāti, vispārinājumu, apgabala sarežģītību un pārklāšanu. Tā ir viegli pielietojama visām četrām sistēmām.
Paveiktie eksperimenti deva sistēmu darbības kvalitātes vispārēju apskatu. Lai varētu objektīvi salīdzināt visas programmatūras, tām tika izvēlēti kopēji uzstādīšanas parametri, līdz ar to nodrošinot sistēmas no lietotāja puses ar vienādām notikumu klasifikācijas iespējām.
Pielikumā A pievienots CD ar maģistra darba tekstu elektroniskajā veidā, CORA, C4.5, AQ20 un CN2 programmatūras instalācijas faili un izmantojamās datu bāzes dati.
RIGA TECHNICAL UNIVERSITY
FACULTY OF COMPUTER SCIENCE AND INFORMATION TECHNOLOGY
Institute of Information TechnologySimboliskas induktīvās sistēmas, kuras inducē koncepcijas aprakstus no piemēriem, ir vērtīgi darbarīki ekspertu sistēmas zināšanu iegūšanas uzdevumos. Kopš laika, kad induktīvās apmācības metodes izveido noteiktus koncepcijas aprakstus, kad tiek doti identiski apmācības piemēri, parādījās jautājums par izveidoto likumu kopas kvalitāti. Šis darbs atspoguļo vairākas likumu kopas salīdzināšanas un analizēšanas tehnoloģijas. Šīs tehnoloģijas mēra precizitāti, vispārināšanu, apgabala sarežģītību un domēnu likumu kopas pārklāšanu. Balstoties uz šo metriku, tiek paveikts četru dažādu induktīvu sistēmu salīdzinājums. Izmantotas ir koncepciju vispārināšanas Bongarda algoritms CORA un izveidota ar E. Tipanu sistēma CORA, izveidota ar Michalski un ekspertu grupu - AQ20 sistēma, Quinlana sistēma C4.5, Clarka un Nibletta sistēma CN2. Salīdzinājumi tiek veikti, izmantojot divas reālas datubāzes, kuras satur datus no politiskas sfēras un bankas kredīta izsniegšanas sfēras, un tiek pamatotas uz risinājumu koku un likumu kopas izveidošanu, izmantojot šos algoritmus.
Simboliskais induktīvās apmācības algoritms apmāca klases aprakstus no piemēriem. Visai informācijai par piemēriem jābūt izteiktai terminos ar fiksēto īpašību daudzumu vai atribūtu, kur katra atribūta vērtības domēni ir arī atsevišķi simboli, diskrēti vai nepārtraukti skaitļi, vai ti var būt arī daļēji sakārtoti. Katrs piemērs tiek aprakstīts ar atribūtu vērtības vektoru un pieder pie vienas no kopas iekļautām klasēm. Kopš tā laika, kad katra piemēra klase ir noteikta apmācības algoritmam ar lietotāju, šī apmācības forma tiek saukta - apmācība ar skolotāju. Indukciju uzdevums ir izveidot likumu kopu, kura var noteikt piemēra klasi, izmantojot atribūtu vērtības. Šo metodoloģiju izmanto trijām no četrām apskatītajām šajā darbā sistēmām: uzlabota C4.5 programma See5, AQ20 un CN2. Un viena, balstīta uz Bongard .M CORA sistēma, kur informācijai par piemēriem jābūt izsākamai terminos ar fiksēto atribūtu daudzumu, kur katra atribūta vērtība ir fiksētais atribūtu vērtības pāris (bināra rinda), līdz ar to daudz reālas pasaules datu bāzes piemēri nevar būt reprezentēti ar fiksēto atribūtu vērtību pāri, nezaudējot daudz vērtīgas informācijas.
Izmantotās tehnoloģijas, kuras tiek salīdzinātas šajā darbā, tika izvēlētas tāpēc, ka tās ir ļoti populāras mašīnu apmācības literatūrā. Tās izveido dažādu tipu likumu kopas, nesecīgas likumu kopas, secīgas likumu kopas, zināmas kā risinājumu saraksts, un risinājumu kokus attiecīgi. Likumu kopas kvalitātes mērs, izmantojamais šajā darbā, ļauj veikt šo dažādo tipu likumu kopas salīdzinājumu.
Šajā darbā tika apskatīti un analizēti induktīvās secināšanas sistēmas. Tika izvēlētas četras metodes, kur viena balstās uz fiksēto atribūtu vērtību pāri, piedāvāta M. Bongardam metode CORA un trīs naturālās indukcijas sistēmas C4.5, AQ20 un CN2.
Tagad zinātniskā pasaule ir pārpildīta ar notikumu klasifikācijas metodēm un atbilstošām sistēmām, tādēļ izveidojās situācija, kad parādījas nepieciešamība salīdzināt un izvēlēties sistēmu ar vislabāko kvalitāti. Katra sistēma var būt ļoti laba vienu uzdevumu risināšanai, bet pavisam nepiemērota citam uzdevumam. Rezultātā mēs nonācām pie secinājuma, ka katram uzdevumam sistēmu ir nepieciešams pielāgot.
Šī darba uzdevums ir paveikt četru induktīvu sistēmu salīdzinājumu un novērtēt risinājuma kvalitāti. Šim nolūkam ir nepieciešams iztrādāt eksperimentus, kuri salīdzinātu visas sistēmas. Atrast parametrus, kuri varētu būt uzstādīti uz visām sistēmām, līdz ar to pielīdzinot sistēmu klasifikācijas spējas, kā arī paveikt, izvestus ar sistēmām, likumu kopas analīzi un noteikt tās kvalitāti. Kvalitātes noteikšanai tika izvēlēta metrika, kura varētu būt pielietota visām četrām sistēmām. Mertikā iekļautie mēri var novertēt likumu kopas precizitāti, vispārinājumu, apgabala sarežģītību un pārklāšanu.
Darbā izmantotas attiecīgi apskatītām metodēm programmatūras nodrošinājums. Modificēta ar E. Tipanu sistēma CORA, izveidota ar Michalski un ekspertu grupu - AQ20 sistēma, Quinlana sistēma C4.5, Clarka un Nibletta sistēma CN2.
Šī maģistra darba izvēlētā tēma par induktīvu secināšanas sistēmu analīzi uzdevuma formālā nostādne sastāv:
1.Apskatīt CORA, C4.5, AQ20 un CN2 algoritmu arhitektūru;
2.Apskatīt šo metožu pielietojumu reālajā dzīve, reālajām problēmām.
3.Izstrādāt risinājuma kvalitātes novērtēšanas kritērijus, kuri varētu būt pielietoti visām četrām metodēm.
4.Apskatīt CORA, See5/C5, AQ20 un CN2 programmatūras nodrošinājumus, ar kuru palīdzību varētu būt realizētas metodes lielām datu bāzēm.
5.Atrast divas datu bāzes, kurām būs dažāda datu sarežģījuma pakāpe. Datu bāze Voting, kura satur tikai simboliskus datus ar fiksēto atribūtu vērtību pāri. Var būt viegli pārveidota binārajā rindu kopā. Otrā Credit Approval ir sarežģīta ar nepārtrauktu, diskrētu, simbolisku, trokšņainu un izlaistu datu saturu.
6.Pielāgot sistēmas vienam klasifikācijas līmenim no lietotāja puses nozīmē - uzstādīt uz visām sistēmām kopējus parametrus.
7.Izstrādāt eksperimentu plānu, pie kura pastāvēs iespēja salīdzināt visas četras sistēmas.
8.Novērtēt sistēmu izveduma kvalitāti, pielietojot vienādu metriku visām sistēmām.
9.Izveidot sistēmu analīzi un secinājumus.…

Коментарий автора
Загрузить больше похожих работ

Atlants

Выбери способ авторизации

Э-почта + пароль

Э-почта + пароль

Неправильный адрес э-почты или пароль!
Войти

Забыл пароль?

Draugiem.pase
Facebook

Не зарегистрировался?

Зарегистрируйся и получи бесплатно!

Для того, чтобы получить бесплатные материалы с сайта Atlants.lv, необходимо зарегистрироваться. Это просто и займет всего несколько секунд.

Если ты уже зарегистрировался, то просто и сможешь скачивать бесплатные материалы.

Отменить Регистрация