• 为山西公安“一网通一次办”点赞 2019-04-22
  • 奥委会将办特殊乒乓赛:钦点马龙丁宁 福原爱复出 2019-04-21
  • 真的很美!越冬候鸟迎来迁徙高峰 2019-04-21
  • ——客观唯物主义哲学思想的“幸福”的定义:“幸福”就是在“客观规律和定律”的制约中满足了人的直接感觉的好的结果。这样,也就存在着客观唯物主义哲学思想的不幸福感。 2019-04-19
  • 推进科技兴军 建设世界一流军队的伟大实践 2019-04-12
  • 罗伯特·劳伦斯·库恩 2019-04-12
  • 广东摧毁全国首例“呼死你”犯罪团伙 2019-04-11
  • 上合再出发 开启新征程 2019-04-09
  • 传Switch即将支持媒体应用 看电影听音乐不是梦传Switch即将支持媒体应用-行情资讯 2019-04-08
  • 北京地铁早高峰大数据:7时30分至8时30分客流最大 2019-04-08
  • 日本大阪北部地区6.1级地震 2019-04-03
  • 走奋发图强之路,壮我中华科技实力。 2019-03-30
  • 端午小长假旅游去这些地方逛逛吧 2019-03-30
  • 《中国教育报》电子版 2019-03-24
  • 精神分裂患者全病程规范管理,有望重返真实世界 2019-03-24
  • 冰球刀没刃了怎么处理: 冰球打架中国对韩国

    北京 切换校区

    全国24小时免费热线

    400-009-1906

    Java教程之使用Jsoup实现简单的爬虫技术

    时间:2019-03-08   来源:尚学堂   阅读:71

    1.Jsoup简述

    ? Java中支持的爬虫框架有很多,比如WebMagic、Spider、Jsoup等。今天我们使用Jsoup来实现一个简单的爬虫程序。

    ? Jsoup拥有十分方便的api来处理html文档,比如参考了DOM对象的文档遍历方法,参考了CSS选择器的用法等等,因此我们可以使用Jsoup快速地掌握爬取页面数据的技巧。

    2.快速开始

    1)编写HTML页面

    页面中表格的商品信息是我们要爬取的数据。其中属性pname类的商品名称,以及属于pimg类的商品图片。

    2)使用HttpClient读取HTML页面

    HttpClient是一个处理Http协议数据的工具,使用它可以将HTML页面作为输入流读进java程序中??梢源?/hc.apache.org/下载HttpClient的jar包。

    3)使用Jsoup解析html字符串

    通过引入Jsoup工具,直接调用parse方法来解析一个描述html页面内容的字符串来获得一个Document对象。该Document对象以操作DOM树的方式来获得html页面上指定的内容。相关API可以参考Jsoup官方文档:https://jsoup.org/cookbook/

    下面我们使用Jsoup来获取上述html中指定的商品名称和价格的信息。

    至此,我们已经实现使用HttpClient+Jsoup爬取HTML页面数据的功能。接下来,我们让效果更直观一些,比如将爬取的数据存到数据库中,将图片存到服务器上。

    3.保存爬取的页面数据

    1)保存普通数据到数据库中

    将爬取的数据封装进实体Bean中,并存到数据库内。

    2)保存图片到服务器上

    直接通过下载图片的方式将图片保存到服务器本地。

    4.总结

    本案简单实现了使用HttpClient+Jsoup爬取网络数据,对于爬虫技术本身,还有很多值得深挖的地方,以后再为大家讲解。

    相关资讯

    • 北京校区
    • 山西校区
    • 郑州校区
    • 武汉校区
    • 四川校区
    • 长沙校区
    • 深圳校区
    • 上海校区
    • 广州校区
    • 保定招生办

    北京海淀区校区(总部):北京市海淀区西三旗街道建材城西路中腾建华商务大厦东侧二层尚学堂
    北京京南校区:北京亦庄经济开发区科创十四街6号院1号楼 赛蒂国际工业园
    咨询电话:400-009-1906 / 010-56233821
    面授课程: JavaEE培训、 大数据就业班培训、 大数据云计算周末班培训、 零基础大数据连读班培训、 大数据云计算高手班培训、 人工智能周末班培训、人工智能+Python全栈培训、 H5+PHP全栈工程师培训

    山西学区地址:山西省晋中市榆次区大学城大学生活广场万科商业A1座702

    郑州学区地址:河南电子商务产业园6号楼4层407
    咨询电话:0371-55177956

    武汉学区地址:湖北省武汉市江夏区江夏大道26号 宏信悦谷创业园4楼
    咨询电话:027-87989193

    四川学区地址:成都市高新区锦晖西一街99号布鲁明顿大厦2栋1003室
    咨询电话:028-65176856 / 13880900114

    网址://www.cssxt.com/
    咨询电话:0731-83072091

    深圳校区地址:深圳市宝安区航城街道航城大道航城创新创业园A4栋210(固戍地铁站C出口)
    咨询电话:0755-23061965 / 18898413781

    上海尚学堂松江校区地址:上海市松江区荣乐东路2369弄45号绿地伯顿大厦2层
    咨询电话:021-67690939

    广州校区地址:广州市天河区元岗横路31号慧通产业广场B区B1栋6楼尚学堂(地铁3号线或6号线到“天河客运站”D出口,右拐直走约800米)
    咨询电话:020-2989 6995

    保定招生办公室

    地址:河北省保定市竞秀区朝阳南大街777号鸿悦国际1101室

    电话:15132423123

    Copyright 2006-2019 北京尚学堂科技有限公司  京ICP备13018289号-19  京公网安备11010802015183  
    媒体联系:18610174079 闫老师  

    Java基础班,免费试学三周

  • 为山西公安“一网通一次办”点赞 2019-04-22
  • 奥委会将办特殊乒乓赛:钦点马龙丁宁 福原爱复出 2019-04-21
  • 真的很美!越冬候鸟迎来迁徙高峰 2019-04-21
  • ——客观唯物主义哲学思想的“幸福”的定义:“幸福”就是在“客观规律和定律”的制约中满足了人的直接感觉的好的结果。这样,也就存在着客观唯物主义哲学思想的不幸福感。 2019-04-19
  • 推进科技兴军 建设世界一流军队的伟大实践 2019-04-12
  • 罗伯特·劳伦斯·库恩 2019-04-12
  • 广东摧毁全国首例“呼死你”犯罪团伙 2019-04-11
  • 上合再出发 开启新征程 2019-04-09
  • 传Switch即将支持媒体应用 看电影听音乐不是梦传Switch即将支持媒体应用-行情资讯 2019-04-08
  • 北京地铁早高峰大数据:7时30分至8时30分客流最大 2019-04-08
  • 日本大阪北部地区6.1级地震 2019-04-03
  • 走奋发图强之路,壮我中华科技实力。 2019-03-30
  • 端午小长假旅游去这些地方逛逛吧 2019-03-30
  • 《中国教育报》电子版 2019-03-24
  • 精神分裂患者全病程规范管理,有望重返真实世界 2019-03-24
  • 12103期足彩任选9场 牛彩网3d开机号和试机号列表 重庆百变王牌彩票图片 七星彩走势图表近500期 360时时彩 时时彩开彩结果 北京pk冠亚和值预算 6场半全场13052期 双色球走势图带坐标爱彩网 排列五和值走势图 福彩双色球开奖结果 快三绝密公式算单双 澳洲幸运10有开奖记录 北京赛车运动社团老徐 陕西福利彩票 七乐彩矩阵