关于python抓取问题
cont=cont.decode("gbk","ignore").encode("utf8")
刚刚发现,出错原因是发现了非法字符,使用 ignore 把错误忽略了. 不知道有没有其他更好的方法处理. 求大神教.
那段代码在ub上运行正常,但是在win跑起来就有出错了。 修改代码。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import urllib.request as urllib2
url="http://www.5477dm.com/"
up=urllib2.urlopen(url)
cont=up.read()
cont=cont.decode('gbk','ignore').encode('utf-8')
file_object = open('thefile.txt', 'w')
file_object.write(str(cont))
file_object.close( )
cont=cont.decode("utf-8")
print(cont)
- 1
奇葩的师弟
我想获得http://www.5477dm.com 的代码. 运行结果
出错,于是我查了下网页源码,发现主页
但是,js的引用是 utf-8
这样我应该怎么处理才能把网页转成utf-8格式呢? 新手.谢谢.