解决gbk页面采集报illegal multibyte sequence错误处理

      发布在:Python技术      评论:0 条评论

最近在采集gbk网页数据发现解码报illegal multibyte sequence错误,于是采用最新的国标gb18030解决,在此记录下,方便下次翻阅。

# d = pq(getres.content.decode('gbk')) 
d = pq(getres.content.decode('gb18030'))

参考来源:https://blog.csdn.net/mingyuli/article/details/80972575

GB2312、GBK、GB18030 区别参考:https://blog.csdn.net/dataastron/article/details/79148574

相关文章
热门推荐