上次我們對豆瓣 TOP250 電影進(jìn)行了抓取,今天我們就對這批數據分析一波,看看可以找到什么結論。
今天主要分析以下幾個(gè)點(diǎn)。
什么類(lèi)型的電影上榜數量最多。
上榜數量最多的國家和地區是哪里。
上榜次數最多的導演和演員都有誰(shuí)。
電影的排名和評論人數以及評分人數有沒(méi)有關(guān)系。
上榜電影中人們更喜歡用哪些標簽給電影做標注。
數據清洗
一般來(lái)說(shuō)我們得到的數據都不是可以直接拿來(lái)現用的,因為里面可能存在著(zhù)空值,重復值,異常值等各種情況。這些統稱(chēng)為臟數據,所以我們第一步就要對臟數據做清洗,將其轉化為合格數據。
我們獲取到的數據都是以 json 串的格式存放在一個(gè) txt 文件中。先將這些數據讀取出來(lái),放入到 DataFrame 中去。
數據格式如下
{index: 1,title:肖申克的救贖 The Shawshank Redemption,url:https://movie.douban.com/subject/1292052/,director:弗蘭克·德拉邦特,actor:蒂姆·羅賓斯摩根·弗里曼鮑勃·岡頓威廉姆·賽德勒克蘭西·布朗吉爾·貝羅斯馬克·羅斯頓詹姆斯·惠特摩杰弗里·德曼拉里·布蘭登伯格尼爾·吉恩托利布賴(lài)恩·利比大衛·普羅瓦爾約瑟夫·勞格諾祖德·塞克利拉保羅·麥克蘭尼芮妮·布萊恩阿方索·弗里曼V·J·福斯特弗蘭克·梅德拉諾馬克·邁爾斯尼爾·薩默斯耐德·巴拉米布賴(lài)恩·戴拉特唐·麥克馬納斯,country:美國,year:1994,type:劇情犯罪,comments:全部 340688 條,runtime:142分鐘,average:9.7,votes:1885235,rating_per:85.0.4%,tags:經(jīng)典勵志信念自由人性人生美國希望}
首先導入我們今天需要用到的包。
importnumpy as npimportpandas as pdimportmatplotlib.pyplot as pltimportmatplotlib
from wordcloudimportWordCloudcontent=[]withopen(file) as f:line=f.readline()whileline:line=eval(line)content.append(line)line=f.readline()d=pd.DataFrame(content)
下面來(lái)看看數據的基本信息。
print(d.info)
print(len(d.title.unique()))
結果如下