scrapy导出文件中文乱码问题

背景:

使用scrapy crawl spidername -o filename.json命令执行爬虫,并将item写入文件,发现中文乱码,比如这样子:
scrapy导出文件中文乱码问题

创新互联为您提适合企业的网站设计 让您的网站在搜索引擎具有高度排名,让您的网站具备超强的网络竞争力!结合企业自身,进行网站设计及把握,最后结合企业文化和具体宗旨等,才能创作出一份性化解决方案。从网站策划到网站建设、成都网站设计, 我们的网页设计师为您提供的解决方案。

解决方法

第一种方法:

使用scrapy命令导出时指定编码格式

scrapy crawl baidu -o baidu_med.json -s FEED_EXPORT_ENCODING=utf-8
第二种方法:

借助Pipeline将item写入到文件
1.修改pipelines.py,添加:

import json
import codecs

class YiyaoPipeline(object):
    def __init__(self):
        self.file = codecs.open('item.json', 'wb', encoding='utf-8')

    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + '\n'
        self.file.write(line)
        return item

2.修改settings.py,激活pipeline:

ITEM_PIPELINES = {
   'yiyao.pipelines.YiyaoPipeline': 300,
}

注意:settings.py默认有ITEM_PIPELINES配置,只是注销掉了。
3.使用scrapy命令导出时,直接执行:

scrapy crawl baidu 

分享文章:scrapy导出文件中文乱码问题
文章路径:http://ptjierui.cn/article/ggshpg.html

其他资讯

Copyright © 2024 青羊区广皓图文设计工作室(个体工商户)(郫都区郫县站) All Rights Reserved 蜀ICP备19037934号
友情链接: 移动手机网站制作 营销型网站建设 成都模版网站建设 重庆电商网站建设 网站建设改版 成都网站建设 手机网站建设 成都网站设计 成都营销网站建设 成都网站建设公司 营销网站建设 成都营销网站制作 专业网站设计 重庆网站制作 盐亭网站设计 成都网站制作 成都企业网站设计 手机网站建设 阿坝网站设计 上市集团网站建设 企业网站设计 成都品牌网站设计