Text ming 操作心得 …... 以下 :
第一步 : 順便學習C#
第二步 : 準備 DB 存放 Crawler 抓回來的 txt , 這裡使用 MySQL , 為了方便 (單獨裝MySQL很煩) , 這裡使用大補丸 (WampServer ) ,
WampServer (php+apache+mySQL 三合一) 安裝
到這裡應該有點苗頭了 , 有C#來寫 Crawler , 也有 mySQL了 (細節不多談)
中場休息了解一下 Text ming 的 workflow
第三步 開發 Crawler程式 , 可以自己從頭寫 ,也可以 抓現成的 , 不過要能保證能將幾個流程combine在一起 , 不然後面會玩死人 .
建議的 Source 來源(code project : http://www.codeproject.com/) , keyword : crawler , 可以找到一大趴 , 要自己寫也成 , 先了解一下甚麼是 web spider, 工作原理是啥, 建議輪胎還是用買的, 不要自己做 .
程式開發重點.... (之後再來補程式流程圖) 比較視覺化 :
1.parse來的html 需去html tag
2.C# 聯結mySQL, insert data into myDQL crawler table
插曲 --- table 的設計應該要做活的 , 不浪費時間 , C#直接抓 XML Setting的value.
怎麼用? (自己爬文)
將處理好的 html ---> insert into 裝文章的table
3.去中研院申請一個中文斷詞的帳號 http://ckipsvr.iis.sinica.edu.tw/
4.準備將DB 內的 term 拿來做GA分析, 這一部份再研究....
以下待續....
沒有留言:
張貼留言