博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
随笔小绪
阅读量:5874 次
发布时间:2019-06-19

本文共 858 字,大约阅读时间需要 2 分钟。

之前在想CSDN与博客园那个写作更适合自己,后来发现似乎博客园更适合自己(主要是因为他更专注于博客,使用它写博客更加自然,流畅)。我的第一个博客主题是解决python的中文乱码。

之前在想爬取平凡的世界小说的内容,忽然发现出现了中文乱码,想了好几个办法还是不行,最后求助于广大网友,找到了一个比较好的方法,与诸君共享。若有其他疑问请参考这篇博客:https://blog.csdn.net/Winterto1990/article/details/51217363。

这是我的代码:

import requestsimport chardetfrom  bs4 import  BeautifulSoup#爬取目标网页url='http://www.pingfandeshijie.net/di-yi-bu-01.html'#头部分不用该部分也行user_agent='Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50'headers={
"User-Agent":user_agent}r=requests.get(url=url,headers=headers)r.encoding='gbk2312' #获取网页后这里设置编码格式gbk是繁体,gbk2313是简体 demo=r.textsoup=BeautifulSoup(demo,'html.parser',from_encoding='gbk')print(soup.find_all('p'))
View Code

代码中有两处使用到编码设置,经过检验,其实只有第一次的编码是有效的(抱歉,第一次写不会改)。代码的标注很清楚,如果有什么疑问可以给我留言,大家一起解决。

转载于:https://www.cnblogs.com/weirdo-xo/p/9064770.html

你可能感兴趣的文章
4.2. PHP crypt()
查看>>
commandLink/commandButton/ajax backing bean action/listener method not invoked (转)
查看>>
RedHat 5.6_x86_64 + ASM + RAW+ Oracle 10g RAC (二)
查看>>
就是一个表格
查看>>
找回使用Eclipse删除的文件
查看>>
移动开发Html 5前端性能优化指南
查看>>
《系统架构师》——操作系统和硬件基础
查看>>
如何看待一本图书
查看>>
Linux 中如何通过命令行访问 Dropbox
查看>>
开发进度——4
查看>>
JS里验证信息
查看>>
Akka actor tell, ask 函数的实现
查看>>
windows10 chrome 调试 ios safari 方法
查看>>
Netty 4.1.35.Final 发布,经典开源 Java 网络服务框架
查看>>
详解Microsoft.AspNetCore.CookiePolicy
查看>>
SCDPM2012 R2实战一:基于SQL 2008 R2集群的SCDPM2012 R2的安装
查看>>
SQL SERVER中字段类型与C#数据类型的对应关系
查看>>
Linux lsof命令详解
查看>>
SVG path
查看>>
js判断checkbox是否选中
查看>>