最新消息:

Python爬虫,早教中国网早教课程资源采集

Python爬虫 追逐 177浏览 0评论

Python爬虫,早教中国网早教课程资源采集

早教中国网

早教中国网

 

#抓取早教资源

# -*- coding: utf-8 -*-
import requests
import re
import os



def zqzj(url):
    #url="http://www.zaojiao-china.com/member/productshow.aspx?id=100000011352773&class=100000001626915"
    html=requests.get(url).text
    #print(html)

    #获取资源名
    btze=r'<h4>(.+?)</h4>'
    bt=re.findall(btze,html,re.S)
    bt=bt[0]
    print(bt)

    #获取收藏
    scze=r'<a class="btn2" href="javascript:;" onclick="islogin(.+?)"><span>立即收藏</span></a>'
    sc=re.findall(scze,html,re.S)
    sc=(sc[0])
    #sc=sc[2]
    print(sc)

    #获取图片
    tpze=r'<div class="img fl"><img  src="(.+?)"></div>'
    tp=re.findall(tpze,html,re.S)
    tpurl='http://www.zaojiao-china.com'+tp[0]
    print(tpurl)
    os.makedirs("./img/zjzy/", exist_ok=True)
    r=requests.get(tpurl)
    tpm=tpurl[-20:]
    with open("./img/zjzy/"+tpm , 'wb') as f:
        f.write(r.content)

    print(tpm+"---已保存!")


    #获取资源内容
    zynrze=r'<div class="fl left">(.+?)<div class="box4">'
    zynr=re.findall(zynrze,html,re.S)
    #print(zynr[0])
    zynr=zynr[0]
    zynr=re.sub('<a href="javascript:;" class="more"><span>查看完整介绍</span></a>', '', zynr)
    zynr=zynr.replace('<a class="btn1"  href="#md" name="md"><span>快速下载</span></a>', '')
    zynr=re.sub('"><span>立即收藏</span></a>', '', zynr)
    zynr=re.sub('<a class="btn2" href="javascript:;" onclick="islogin', '', zynr)
    zynr=re.sub(sc, '本网站资源仅供个人学习和欣赏,学习内容请于下载后24小时内删除。', zynr)
    zynr=re.sub('详细操作请见网站首页右上角的注册下载指南', '', zynr)
    zynr=re.sub('<th width="75">下载</th>', '<th width="200">免费在线下载地址</th>', zynr)

    nr1='本栏目部分资源系网友上传分享,如共享资源涉及权宜争议,请与网站管理员联系,将依法处理。本网站仅供个人学习和欣赏,学习内容请于下载后24小时内删除。'
    nr2='网站所有内容都由网友提供,网站仅为网友提供信息的交流平台,网站的服务器不会保存、复制或传播任何资源的实际文件。网友在相关网页上发布内容和下载链接时,应当遵守《中华人民共和国著作权法》及与著作权保护相关的法律和规章,保证不侵犯著作权人的合法利益。'
    zynr=re.sub(nr1,nr2, zynr)
    zynr=re.sub('<div class="img fl"><img  src="'+tp[0]+'"></div>', '<div class="img fl"><img  src="http://www.duoxiqi.cn/zjzy/'+tpm+'"></div>', zynr)
    print(zynr)
    with open("./img/zjzy/"+bt+'.txt' , 'w') as f:
        f.write(zynr)
    print("保存"+bt+"内容完成!")


ur="http://www.zaojiao-china.com/member/product.aspx?page=1"
htm=requests.get(ur).text
print(htm)
ljnrze=r'<input type="hidden" name="__VIEWSTATEGENERATOR" id="__VIEWSTATEGENERATOR" value="670C88CB" />(.+?)<!-- 分页 --> '
ljnr=re.findall(ljnrze,htm,re.S)
ljnr=ljnr[0]
print(ljnr)
ljze=r'''<li class="o_box o_224">
                   
                                             <a href="(.+?)">'''
lj=re.findall(ljze,ljnr,re.S)
print(lj)

 

抓取搜搜问问结果爬虫,添加延时功能

#抓取搜搜问问结果,添加延时功能

import requests
import re
import time

def ww(url):
    headers={
    "user-agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
    }

    #url="https://wenwen.sogou.com/z/q825160411.htm"
    html=requests.get(url,headers=headers).text
    print(html)

    #获取问题
    wtze=r' <span class="detail-tit" id="question_title_val">(.+?)</span>'
    wt=re.findall(wtze,html,re.S)
    wt=wt[0]
    print(wt)

    #获取答案
    daze=r'<pre class="replay-info-txt answer_con">(.+?)</pre>'
    da=re.findall(daze,html,re.S)
    #print(da)
    daan=[]
    for x in da:
        daan.append(x)
        print(x+'\r\n')

    time.sleep(10)
    #return(daan)



keyword = input('请输入问问问答关键词:')
#获取列表链接
headers={
"user-agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}
ur="https://www.sogou.com/sogou?query="+keyword+"&insite=wenwen.sogou.com&page="+'1'+"&ie=utf8"
print(ur)
sjhtm=requests.get(ur,headers=headers).text
ljze=r'''<h3 class="vrTitle">
<a target="_blank" href="(.+?)" id=".+?" cacheStrategy="qcr:-1">.+?</a>
</h3>'''
lj=re.findall(ljze,sjhtm,re.S)
for wwurl in lj:
    wtlj='https://www.sogou.com'+wwurl
    print(wtlj)
    ljnr=requests.get(wtlj,headers=headers).text
    print(ljnr)
    ljze=r'<script>window.location.replace(.+?)</script>'
    lj=re.findall(ljze,ljnr,re.S)
    lj=lj[0]
    lj =lj[2:]
    lj =lj[:-2]
    print(lj)
    ww(lj)
    time.sleep(10)




转载请注明:二爷记 » Python爬虫,早教中国网早教课程资源采集

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址