《哪吒》上映已經一個多月,這樣一部國產動畫電影的火爆程度超出了很多人的預料。
8月7日,貓眼預測,《哪吒》總票房會達到46.8億,超過《流浪地球》。二十多天后的8月31日,貓眼數據顯示,《哪吒》票房正式超過《流浪地球》,成為中國影史票房排名第二的電影。
在《哪吒》刷屏的背后,很多人也會產生疑問:票房預測的基本原理是什么?對此,騰訊科技聯合知乎平臺,并采訪貓眼數據專家,揭秘票房預測背后的黑盒子。
據知乎答主“DataHunter”介紹,目針對電影票房的預測主要有以下三種思路:
第一種思路可以形象的理解為“照貓畫虎”,其原理在于:目前市場上已經上映了大量的影片,并積累了海量的票房變動數據,深度神經網絡模型可以依據某一部影片的大量用戶行為數據,在定檔影片上映前一個月就可以給出該片的首日票房預測。
同時,系統自動篩選出與之最相似的電影,描繪出待映電影的未來票房走勢圖,進而預測出這部影片在上映期間的每日票房以及最終的總票房。
谷歌所采用的預測模型只選取了三種維度:電影預告片的搜索量、同系列電影前幾部的票房表現、檔期的季節性特征,最終獲得94%的預測準確率。
這種方式的優點在于簡單直接,更接近傳統大數據分析“只反映趨勢,不深究因果”的理念,上映時間越長,其預測的數據就越為精準,往往適用于掌握了大量票房數據的企業。但缺點在于,其無法將電影上映過程中眾多的復雜因素考慮進來,所以經常會出現預測波動大、與實際偏離值較高等缺陷。
第二種思路則較為復雜,而且會將更多的因子納入到考量因素中來。其先根據歷史票房變化預測出某一個檔期的總票房,然后根據社交媒體討論數量、不同導演與演員的歷史電影質量、點映用戶的評價、票房情況、SEO情況等預測出各電影票房占比,之后綜合預測出各電影的實際票房。
這種方式優點在于更多的將“電影評價”這一個重要因子納入到考量范圍內,通過電影導演表現、上映前反饋等等因素來判斷出電影的流行趨勢,因此預測精準性方面有更好的效果。
第三種思路則綜合了大數據分析與人工決策,即先使用大數據分析來對于影片的票房進行一個事先的預測,并輸出可視化的數據圖表。
與此同時,專家會對具體的電影進行分析,找出其潛在的爆點或是隱患,并評估其可能帶來的影響,并以加權的方式納入到模型之中進行修正。這種方式在預測爆品方面有更好的表現。
在和貓眼的對話中,騰訊科技了解到,貓眼有一套比較完整的票房預測工具,包括實時票房(含未來預售票房)、天級票房預測(未來3天每日大盤票房預測)和總票房預測(單片總票房)等算法,由于貓眼的大數據優勢(積累了多年的實時票房詳細數據、電影天級票房和總票房樣本、以及貓眼平臺的交易數據),這些算法可以達到非常好的預測效果,如實時票房準確度度可以達到99%以上,次日天級票房預測準確度可以達到90%左右。
此外,除了算法工具,貓眼也有票房預測的專家,會根據經驗提供一些建議,對算法產出的數據會做一定的審核和校對,但總體上以算法產出為主,人的干預比例很小。
這套算法的基本邏輯就是:根據相似電影的票房規律預測新電影的票房,相似電影的選取會有若干條件(如類型、評分、所處檔期、票房體量、近期走勢等),然后基于這些相似電影,構建預測天級票房或總票房的機器學習模型。
以預測《哪吒》票房為例,貓眼在前期參考其類型、評分因素,以《大圣歸來》為參考影片,后期《哪吒》的票房走勢出來后,貓眼發現他與《戰狼2》的走勢相像,參考《戰狼2》的走勢調整接下來的票房預測。在《哪吒》上映期間,根據多部上映影片的表現情況實時調整其預測票房。
在國外,谷歌也有一套自己的算法預測模型。谷歌的算法模型主要利用搜索、廣告點擊數據以及院線排片來預測票房。2013年,谷歌就宣布其模型預測票房與真實票房的吻合程度達到了94%。
與此同時,谷歌通過分析自身的數據還發現,在上映前四周時,大部分電影的預告片都是這個時間發布并開始密集的投放廣告,因此,這個階段的用戶搜索信息與票房的相關性會更加緊密。
DataHunter也提到了算法大數據預測票房的難點所在:很多大數據分析工具并不考慮因果性,只考慮相關性,經常會帶來“虛假相關”的問題,也就是無法對于數據變化的真正原因進行歸因。在大多數場景下,這樣的預測并沒有什么問題,但是在特定的場景下,偏離預測的情況仍有可能會發生。
此外不成熟的市場環境,以及潛在的風險因素,也會對票房預測產生關鍵影響。比如影片檔期選擇、宣發策略的一招失誤,就可能導致整個影片的票房成幾倍的誤差。而某個關鍵演員的負面新聞也同樣會帶來不可預期的影響,例如某位主演丑聞,導致《情圣2》撤檔。
因此,這又引出了下一個問題:如何提高算法預測的準確性?
DataHunter認為,大數據分析與人工決策相結合的方式,其核心原理就是利用人工思維的主觀能動性與創造性,發掘電影票房中潛在、但關鍵的影響因子,最終來得出結論。
對此,貓眼提出的解決方案是:目前算法都是實時訓練和預測的,就是針對一個新的待預測電影,實時選取相似電影,并訓練模型以及預測,模型的超參數是提前訓練好的,短期不會變化,算法的精度隨著樣本的積累或越來越好。當新樣本積累到一定程度,貓眼會對模型重新優化(模型的選擇,超參數的優化)。