Python学习笔记之简单爬虫

来源 : 作者 : admin时间 : 2017-07-16 08:30:08 人气指数 :

导语所谓的爬虫就是通过代码的方式，抓取网站上的你想要的任何信息，比如你在网上看见很多有意思的图片，如果不会爬虫的话，我是不是的一张张另存下来，如果会了爬虫，就能悄无声息的吧图片下载下来，慢慢欣赏。

　　现阶段我们利用urllib模块，去做最简单的爬虫，因为比较简单，所以直接看代码就行。主要知识就是通过urllib模块的各个函数加上正则表达式去完成。

#encoding:utf-8

import re

import urllib

#利用urllib的urlopen（）函数打开一个url地址

#并读取所有的html代码，

def gethtml(url):

    content=urllib.urlopen(url)

    html=content.read()

    return html

#根据正则表达式去匹配符合规则的内容

def geturls(html):

    r=r'data-src="(http://.*?)"'

    alllist=re.findall(r,html)

    return alllist

#利用urlretrieve（）下载文件

def download(list):

    x=0

    for li in list:

        x=x+1

        urllib.urlretrieve(li,"%s.jpg"%x)

if  __name__ == '__main__':

    #内涵段子

    url = "http://neihanshequ.com/pic/"

    #获取网页源码

    html = gethtml(url)

    #根据一定规则过滤出想要的内容

    list = geturls(html)

    #下载图片

    download(list)

    print list

浏览效果立即下载

TAG:爬虫 Python

本站欢迎任何形式的转载，但请务必注明出处，尊重他人劳动成果
转载请注明：文章转载自：爱思资源网 http://www.aseoe.com/show-18-1109-1.html

Python学习笔记之简单爬虫

[前端插件推荐] Plugin