吾爱汇编

 找回密码
 立即注册

QQ登录

绑定QQ避免忘记帐号

查看: 4842|回复: 72

[其他] 【Python爬虫】获取某电影网站电影排行,主要是JSON的应用。

  [复制链接]
小涩席 发表于 2020-3-15 20:46 | 显示全部楼层 |阅读模式

如题:主要是Python中爬虫对于JSON数据的采集和清洗。
其中运用到了列表、字典、键值对、文件操作、目录创建判断等。
代码如下:

[Python] 纯文本查看 复制代码
# -*- coding : "UTF-8" -*-
# 学习豆瓣网JSON数据提取
# Author:XSX
# Python3.8 PyCharm Community Edition 2019.3.3

import requests
import json
import os

def UrlAdd():
    URllists = []
    url = "https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start={}"
    for i in range(16):
        urls = url.format(i * 20)
        URllists.append(urls)
    print(URllists)
    return URllists

def GetJson(URllists, headers):
    ContentLists = []
    for URllist in URllists:
        r = requests.get(URllist, headers=headers)
        r.encoding = r.apparent_encoding
        results = json.loads(r.text)
        for i in results['subjects']:
            contents = {}
            contents['电影名'] = i['title']
            contents['评分'] = i['rate']
            contents['链接'] = i['url']
            contents['图片地址'] = i['cover']
            ContentLists.append(contents)
    print("采集所有电影完成!")
    print("正在开始准备写入文件····")
    return ContentLists

def SaveCVS(ContenLists):
    if not os.path.exists('./DouBan'):
        os.mkdir('./DouBan')
    try:
        os.remove('./DouBan/MV.csv')
    except:
        pass
    with open('./DouBan/MV.csv', 'a')as f:
        f.write('电影名, 评分, 链接, 图片地址' + '\n')
        for ContenList in ContenLists:
            f.write(ContenList['电影名'] + ',' + ContenList['评分'] + ',' + ContenList['链接'] + ',' + ContenList['图片地址'] + '\n')
        print('文件已写入完成!')

if __name__ == '__main__':
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
        'Cookie': '用自己浏览器中获取的'
    }
    SaveCVS(GetJson(UrlAdd(), headers))

评分

参与人数 6HB +4 THX +5 收起 理由
消逝的过去 + 1
创客者V2.0 + 1
微熊猫 + 1
笨神仙 + 2 + 1
agan8888 + 1
贰零贰贰 + 1 + 1

查看全部评分

吾爱汇编论坛-学破解,防破解!知进攻,懂防守!逆向分析,软件安全!52HB.COM
1946010 发表于 2020-3-16 10:39 | 显示全部楼层
吾爱汇编论坛-学破解,防破解!知进攻,懂防守!逆向分析,软件安全!52HB.COM
wj710000 发表于 2020-4-12 00:15 | 显示全部楼层

这个有用,学习了
吾爱汇编论坛-学破解,防破解!知进攻,懂防守!逆向分析,软件安全!52HB.COM
zhengchaoit2020 发表于 2020-4-23 15:04 | 显示全部楼层
吾爱汇编论坛-学破解,防破解!知进攻,懂防守!逆向分析,软件安全!52HB.COM
水涧无形 发表于 2020-4-28 10:33 | 显示全部楼层

刚好入迷,学习了
吾爱汇编论坛-学破解,防破解!知进攻,懂防守!逆向分析,软件安全!52HB.COM
aqw729 发表于 2020-8-30 17:42 | 显示全部楼层
吾爱汇编论坛-学破解,防破解!知进攻,懂防守!逆向分析,软件安全!52HB.COM
wjdcq 发表于 2020-11-23 10:48 | 显示全部楼层

来学习一下
吾爱汇编论坛-学破解,防破解!知进攻,懂防守!逆向分析,软件安全!52HB.COM
gesq32957 发表于 2022-3-1 01:22 | 显示全部楼层

谢谢分享
吾爱汇编论坛-学破解,防破解!知进攻,懂防守!逆向分析,软件安全!52HB.COM
EPdkrKb710 发表于 2022-3-3 00:54 | 显示全部楼层

谢谢分享
吾爱汇编论坛-学破解,防破解!知进攻,懂防守!逆向分析,软件安全!52HB.COM
CQPyO618 发表于 2022-3-3 01:04 | 显示全部楼层

我现在已经把楼主作为我的学习目标了!
吾爱汇编论坛-学破解,防破解!知进攻,懂防守!逆向分析,软件安全!52HB.COM
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

警告:本站严惩灌水回复,尊重自己从尊重他人开始!

1层
2层
3层
4层
5层
6层
7层
8层
9层
10层

免责声明

吾爱汇编(www.52hb.com)所讨论的技术及相关工具仅限用于研究学习,皆在提高软件产品的安全性,严禁用于不良动机。任何个人、团体、组织不得将其用于非法目的,否则,一切后果自行承担。吾爱汇编不承担任何因为技术滥用所产生的连带责任。吾爱汇编内容源于网络,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑中彻底删除。如有侵权请邮件或微信与我们联系处理。

站长邮箱:SharkHeng@sina.com
站长QQ:1140549900


QQ|RSS|手机版|小黑屋|帮助|吾爱汇编 ( 京公网安备11011502005403号 , 京ICP备20003498号-6 )|网站地图

Powered by Discuz!

吾爱汇编 www.52hb.com

快速回复 返回顶部 返回列表