- 軟件大?。?span>100.59M
- 軟件語言:中文
- 軟件類型:國產(chǎn)軟件
- 軟件類別:免費軟件 / 數(shù)據(jù)庫類
- 更新時間:2017-05-23 10:25
- 運行環(huán)境:WinAll, WinXP, Win7, Win8
- 軟件等級:
- 軟件廠商:
- 官方網(wǎng)站:http://www.aimjoke.net
2.99M/中文/0.0
6.40M/中文/10.0
31.41M/中文/10.0
8.52M/中文/10.0
8.03M/中文/10.0
weka是一款功能強大的數(shù)據(jù)挖掘軟件,這款軟件具有、分類、回歸、聚類、關(guān)聯(lián)分析、數(shù)據(jù)預(yù)處理、評估等特色功能,是數(shù)據(jù)挖掘分析的必備工具,需要的朋友歡迎來綠色資源網(wǎng)免費下載使用。
Weka的全名是懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis),是一款免費的,非商業(yè)化(與之對應(yīng)的是SPSS公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品--Clementine )的,基于JAVA環(huán)境下開源的機器學習(machine learning)以及數(shù)據(jù)挖掘(data mining)軟件。它和它的源代碼可在其官方網(wǎng)站下載。有趣的是,該軟件的縮寫WEKA也是New Zealand獨有的一種鳥名,而Weka的主要開發(fā)者同時恰好來自New Zealand的the University of Waikato。
原理與實現(xiàn)
聚類分析中的“類”(cluster)和前面分類的“類”(class)是不同的,對cluster更加準確的翻譯應(yīng)該是“簇”。聚類的任務(wù)是把 所有的實例分配到若干的簇,使得同一個簇的實例聚集在一個簇中心的周圍,它們之間距離的比較近;而不同簇實例之間的距離比較遠。對于由數(shù)值型屬性刻畫的實 例來說,這個距離通常指歐氏距離。
模型應(yīng)用
現(xiàn)在我們要用生成的模型對那些待預(yù)測的數(shù)據(jù)集進行預(yù)測了。注意待預(yù)測數(shù)據(jù)集和訓(xùn)練用數(shù)據(jù)集各個屬性的設(shè)置必須是一致的。即使你沒有待預(yù)測數(shù)據(jù)集的Class屬性的值,你也要添加這個屬性,可以將該屬性在各實例上的值均設(shè)成缺失值。
在“Test Opion”中選擇“Supplied test set”,并且“Set”成你要應(yīng)用模型的數(shù)據(jù)集,這里是“bank-new.arff”文件。
現(xiàn)在,右鍵點擊“Result list”中剛產(chǎn)生的那一項,選擇“Re-evaluate model on current test set”。右邊顯示結(jié)果的區(qū)域中會增加一些內(nèi)容,告訴你該模型應(yīng)用在這個數(shù)據(jù)集上表現(xiàn)將如何。如果你的Class屬性都是些缺失值,那這些內(nèi)容是無意義 的,我們關(guān)注的是模型在新數(shù)據(jù)集上的預(yù)測值。
現(xiàn)在點擊右鍵菜單中的“Visualize classifier errors”,將彈出一個新窗口顯示一些有關(guān)預(yù)測誤差的散點圖。點擊這個新窗口中的“Save”按鈕,保存一個Arff文件。打開這個文件可以看到在倒 數(shù)第二個位置多了一個屬性(predictedpep),這個屬性上的值就是模型對每個實例的預(yù)測值。
建模結(jié)果
OK,選上“Cross-validation”并在“Folds”框填上“10”。點“Start”按鈕開始讓算法生成決策樹模型。很快,用文 本表示的一棵決策樹,以及對這個決策樹的誤差分析等等結(jié)果出現(xiàn)在右邊的“Classifier output”中。同時左下的“Results list”出現(xiàn)了一個項目顯示剛才的時間和算法名稱。如果換一個模型或者換個參數(shù),重新“Start”一次,則“Results list”又會多出一項。
目前,WEKA的關(guān)聯(lián)規(guī)則分析功能僅能用來作示范,不適合用來挖掘大型數(shù)據(jù)集。
我們打算對前面的“bank-data”數(shù)據(jù)作關(guān)聯(lián)規(guī)則的分析。用“Explorer”打開“bank-data-final.arff”后,切 換到“Associate”選項卡。默認關(guān)聯(lián)規(guī)則分析是用Apriori算法,我們就用這個算法,但是點“Choose”右邊的文本框修改默認的參數(shù),彈 出的窗口中點“More”可以看到各參數(shù)的說明。
背景知識
首先我們來溫習一下Apriori的有關(guān)知識。對于一條關(guān)聯(lián)規(guī)則L->R,我們常用支持度(Support)和置信度(Confidence)來衡量它的重要性。規(guī)則的支持度是用來估計在一個購物欄中同時觀察到L和R的概率P(L,R),而規(guī)則的置信度是估計購物欄中出現(xiàn)了L時也出會現(xiàn)R的條件概率P(R|L)。關(guān)聯(lián)規(guī)則的目標一般是產(chǎn)生支持度和置信度都較高的規(guī)則。
有幾個類似的度量代替置信度來衡量規(guī)則的關(guān)聯(lián)程度,它們分別是
Lift: P(L,R)/(P(L)P(R))
Lift=1時表示L和R獨立。這個數(shù)越大,越表明L和R存在在一個購物欄中不是偶然現(xiàn)象。
Leverage:P(L,R)-P(L)P(R)
它和Lift的含義差不多。Leverage=0時L和R獨立,Leverage越大L和R的關(guān)系越密切。
Conviction(更不知道譯了):P(L)P(!R)/P(L,!R) (!R表示R沒有發(fā)生)
Conviction也是用來衡量L和R的獨立性。從它和lift的關(guān)系(對R取反,代入Lift公式后求倒數(shù))可以看出,我們也希望這個值越大越好。
值得注意的是,用Lift和Leverage作標準時,L和R是對稱的,Confidence和Conviction則不然。
參數(shù)設(shè)置
現(xiàn)在我們計劃挖掘出支持度在10%到100%之間,并且lift值超過1.5且lift值排在前100位的那些關(guān)聯(lián)規(guī)則。我們把 “l(fā)owerBoundMinSupport”和“upperBoundMinSupport”分別設(shè)為0.1和1,“metricType”設(shè)為 lift,“minMetric”設(shè)為1.5,“numRules”設(shè)為100。其他選項保持默認即可?!癘K” 之后在“Explorer”中點擊“Start”開始運行算法,在右邊窗口顯示數(shù)據(jù)集摘要和挖掘結(jié)果。
下面是挖掘出來的lift排前5的規(guī)則。
Best rules found:
1. age=52_max save_act=YES current_act=YES 113 ==> income=43759_max 61 conf:(0.54) < lift:(4.05)> lev:(0.08) [45] conv:(1.85)
2. income=43759_max 80 ==> age=52_max save_act=YES current_act=YES 61 conf:(0.76) < lift:(4.05)> lev:(0.08) [45] conv:(3.25)
3. income=43759_max current_act=YES 63 ==> age=52_max save_act=YES 61 conf:(0.97) < lift:(3.85)> lev:(0.08) [45] conv:(15.72)
4. age=52_max save_act=YES 151 ==> income=43759_max current_act=YES 61 conf:(0.4) < lift:(3.85)> lev:(0.08) [45] conv:(1.49)
5. age=52_max save_act=YES 151 ==> income=43759_max 76 conf:(0.5) < lift:(3.77)> lev:(0.09) [55] conv:(1.72)
對于挖掘出的每條規(guī)則,WEKA列出了它們關(guān)聯(lián)程度的四項指標。
命令行方式
我們也可以利用命令行來完成挖掘任務(wù),在“Simlpe CLI”模塊中輸入如下格式的命令:
java weka.associations.Apriori options -t directory-path"bank-data-final.arff
即可完成Apriori算法。注意,“-t”參數(shù)后的文件路徑中不能含有空格。
在前面我們使用的option為
-N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 命令行中使用這些參數(shù)得到的結(jié)果和前面利用GUI得到的一樣。
我們還可以加上“- I”參數(shù),得到不同項數(shù)的頻繁項集。我用的命令如下:
java weka.associations.Apriori -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -I -t d:"weka"bank-data-final.arff
挖掘結(jié)果在上方顯示,應(yīng)是這個文件 的樣子。
請描述您所遇到的錯誤,我們將盡快予以修正,謝謝!
*必填項,請輸入內(nèi)容