利用Python控制PHP采集页面

最近在网站源码上添加PHP采集功能在做采集时老是报Internal Server Error错误,通过优化代码也没有找到好的解决方法。

也就时不时要去刷新页面很是麻烦,于是想到使用Python来监控采集

简单实现方法如下:

from splinter import Browser
import time


def toget(b, p):
    if p > 2238:
        print('全部采集完成')
        exit()
    url = 'http://www.chid.com/index/cai/getword/p/' + str(p) + '.html'
    browser.visit(url)
    if browser.is_text_present('Internal Server Error'):
        print("采集%s页面报Internal Server Error,等待10秒后再次请求!" % url)
        time.sleep(10)
        toget(b, p)
    elif browser.is_text_present('采集完成当前页面'):
        print("采集%s页面成功" % url)
        p = p + 1
        toget(b, p)

browser = Browser("chrome")
#第二个参数是采集的页码数
toget(browser, 11)

效果截图:

image.png

支付宝扫码打赏 微信扫码打赏

如果本文对你有帮助,欢迎打赏本站

喜欢 ()or分享
    匿名评论
  • 评论
人参与,条评论