葡京娱乐场-富盈娱乐场开户_百家乐试玩_sz全讯网网址xb112 (中国)·官方网站

|
電子科技大學
電子科技大學 教育部
  • 34 高校采購信息
  • 524 科技成果項目
  • 74 創新創業項目
  • 0 高校項目需求

一種基于鏈接分析的聚焦爬蟲方法

2021-04-10 00:00:00
云上高博會 http://www.aagg92h.xyz
關鍵詞: 聚焦爬蟲
點擊收藏
所屬領域:
新一代信息技術
項目成果/簡介:
本發明針對現有技術的不足之處提供了一種基于鏈接分析的聚焦爬蟲方法,用以解決現有聚焦爬蟲抓取網頁準確率和效率較低的問題。 為實現上述目的,本發明采用的技術方案為: 一種基于鏈接分析的聚焦爬蟲方法,其特征在于,包括如下步驟: (1)抓取網頁,將網頁和目標樣本網頁的結構進行比較,確定目標網頁,從網站入口鏈接開始,記錄爬蟲到目標網頁的每一條鏈接路徑,建立目標網頁鏈接樹; (2)分析目標網頁鏈接樹,歸納鏈接樹中目標網頁路徑上的鏈接,替換鏈接樹中的鏈接,形成鏈接模版樹; (3)爬蟲使用鏈接模版樹作為導航,抓取與鏈接模版樹相匹配的網頁鏈接,直到整個抓取循環過程結束,最終抓取完所有目標網頁。 作為優選,步驟(1)中,所述建立目標網頁鏈接樹的具體步驟如下: (11)選擇一個目標網頁作為目標樣本網頁,用于比較將下載的網頁結構; (12)初始化鏈接樹,即將鏈接樹設置為一棵空樹; (13)初始化鏈接隊列,將網站的入口鏈接加入到鏈接隊列尾部; (14)從鏈接隊列頭部取出鏈接,廣度優先地抓取網頁; (15)將抓取的網頁和目標樣本網頁進行比較,如果結構相同,則將該目標網頁的路徑添加到鏈接樹中,將目標網頁的鏈接作為
項目階段:
試用
會員登錄可查看 合作方式、專利情況及聯系方式

掃碼關注,查看更多科技成果

取消
博彩百家乐官网软件| 尊龙娱乐开户| 百家乐官网足球投注网哪个平台网址测速最好| 武汉百家乐官网庄闲和| 百家乐桌子租| 澳门百家乐官网娱乐平台| 申博太阳城官方网站| 网上百家乐官网软件大全酷| 百家乐有破解的吗| 利高在线娱乐城| 百家乐官网平台开户哪里优惠多 | 百家乐官网vshow| 大发888游戏平台dafa 888 gw| 新濠百家乐官网娱乐场| 永利国际| 百家乐tt娱乐场| 百家乐官网变牌桌| 大发8888娱乐城 真钱| 狮威百家乐官网娱乐城| 皇冠百家乐| 百家乐押注最多是多少| 真人百家乐官网平台下载| 钱百家乐取胜三步曲| 网上百家乐官网优博| 百家乐园选百利宫| ea百家乐官网系统| 棋牌游戏开发公司| 百家乐官| 百家乐官网娱乐网真钱游戏| 赌博博彩论坛| 百家乐破解赌戏玩| 利博百家乐官网的玩法技巧和规则 | 大发888赌场娱乐网规则| 百家乐会骗人吗| 百家乐官网视频游戏挖坑| 威尼斯人娱乐城 老品牌值得您信赖| 赌博百家乐官网玩法| 新盈国际| 威尼斯人娱乐城 老品牌值得您信赖 | 网络百家乐官网| 衢州星空棋牌下载|