大數(shù)據(jù)時代來臨,你應(yīng)該具備的市場調(diào)研數(shù)據(jù)分析思維
時間:2018-07-20 11:06:00 閱讀:3545 整理:廣州市場調(diào)查公司
處于大數(shù)據(jù)時代的今天,我們應(yīng)該要了解一些統(tǒng)計學的常識,具備一些市場調(diào)研大數(shù)據(jù)的思維,我們以以下四點來做簡單描述:
1 相關(guān)性
混淆相關(guān)和因果,不能建立多元相關(guān)思維模型,簡直是人們犯蠢的重災(zāi)區(qū)!
因果的意思是,A的發(fā)生必然會導(dǎo)致B,B的發(fā)生必然以A的發(fā)生為前提。相關(guān)則不一定,僅僅可能是A,B同時發(fā)生了。
比如暴飲暴食導(dǎo)致胃痛,就是一種因果關(guān)系。吃太多胃承受不了,必然會痛。胃之所以會痛,就是因為你吃了太多東西進去(控制其他變量的前提下)。
但名校畢業(yè)和賺很多錢,這就不是因果關(guān)系。這只是一種相關(guān)關(guān)系,而且是一種多元的相關(guān)關(guān)系。
換句話說,賺錢這個事實,不僅和學校學歷相關(guān),還和很多其他因素相關(guān),比如長相、行業(yè)、冒險精神等等。
現(xiàn)在明白我為什么說上面那些問題很蠢了吧。誰告訴你清北畢業(yè)就一定可以去投行?同理,誰告訴你,哈佛的學生就一定比咪蒙賺錢賺得多?
清北畢業(yè)和去投行,只是相關(guān)性,且只是相關(guān)因子當中的一個,同理,哈佛畢業(yè)和賺錢多,也是這個道理。
如果把一個結(jié)果稱為Y,諸多和它相關(guān)的因素稱為X,那么Y和X的關(guān)系應(yīng)該是:
Y=AX.
其中A=[a0,a1,a2...an], X=[x0,x1,x2…xn]’
以上是一個最基本的多元相關(guān)模型。比如,賺錢是Y,那它對應(yīng)的X,包括了學歷、起始資本(家庭背景)、努力程度、長相,等等。
如果以多元相關(guān)模型來思考問題,根本就不可能提出為什么一個哈佛的還不如咪蒙賺得多這種愚蠢的問題。
明白了這一點,你也不會再提憑什么奶茶長得好看就可以搞定東哥,為什么美聯(lián)儲加息了股票反而上漲,名校畢業(yè)的不如技校畢業(yè)的賺得多,這一類愚蠢的問題了。
簡單來說,記住一點:
事情的發(fā)生,往往都是一個復(fù)雜系統(tǒng)里,多因素共同作用的結(jié)果。
凡事都盡量避免用單因素模型去解釋。這是避免你變得很蠢的重要思維法寶。
2 樣本偏差
人們習慣通過很少的觀察值,就得出結(jié)論。這樣的結(jié)論,往往就存在樣本不足導(dǎo)致的偏差。
比如,你說吸煙有害健康,勸身邊人戒煙。煙民們常用的借口是這樣的:
你看隔壁王大爺,都九十歲了,抽煙抽了一輩子,照樣健健康康的。張二蛋,煙酒不沾,三十歲就歸了西。所以呀,抽煙有害健康,都是扯淡騙人的!
比如,有人跟蹤過每年的高考狀元后來的職業(yè)發(fā)展路徑,最終發(fā)現(xiàn)這些狀元,絕大多數(shù)并沒有成為人中龍鳳,國之棟梁,于是他們得出結(jié)論:
高考狀元最終將走向平庸,高考對篩選人才并沒什么卵用!
再比如,幾個清北畢業(yè)的人,上知乎回答了個問題,說自己清北畢業(yè),也買不起學區(qū)房,甚至也在北京留不下來,于是就有人得出結(jié)論:
清北的學歷不如學區(qū)房值錢!
以上的例子,統(tǒng)統(tǒng)犯了小樣本偏差的統(tǒng)計錯誤。換句話說,考察的樣本太少,根本不可能得出可靠的結(jié)論。
看吸煙是否有害健康,應(yīng)該看的是整個煙民群體和非煙民群體的比較,光一個王大爺和張二蛋怎么能得出結(jié)論。
高考狀元的容量加起來不過幾百人,但非狀元人數(shù)上千萬,幾千萬人當中出現(xiàn)馬云馬化騰,當然更正常。
說清北畢業(yè)買不起房的,也只是發(fā)聲的少數(shù)人,而那些悶聲發(fā)大財?shù)那灞比耍吹竭@樣的結(jié)論,恐怕只會默默地罵一句SB。
說到樣本偏差,就必須提到有名的「紅球?qū)嶒灐埂?
假設(shè)有兩個盒子:A和B.
A盒:2/3的紅球,1/3的藍球。
B盒:2/3的藍球,1/3的紅球。
現(xiàn)在我們把兩個盒子遮起來,從中隨機抽取小球出來。換句話說,這個時候,你不知道哪個是A哪個是B,只知道盒子1和盒子2。
我們從盒子1當中抽取了4個紅球和1個藍球,一共5個。從盒子2當中,抽取了20個紅球,10個藍球,一共30個。也即是:
盒子1:4個紅球,1個藍球,共5個。
盒子2:20個紅球,10個藍球,共30個。
現(xiàn)在問,哪個盒子更有可能是A盒,是1還是2?
多數(shù)人的答案是1。因為1當中紅球的概率是80%,而2當中只有67%。A盒當中的紅球概率更高,所以1是A盒。
但答案恰恰相反,盒子2才更有可能是A盒。因為在更多的樣本量下,它保證了紅球的概率遠高于藍球。
學過概率論的同學應(yīng)該馬上反應(yīng)出來,這是一個典型的條件概率問題,用貝葉斯公式可以很容易計算:
P(A|1)=P(A1)/P(1)=P(A1)/(P(A1)+P(B1))=0.89.
P(A|2)=P(A2)/P(2)=P(A2)/(P(A2)+P(B2))=0.99.
看不懂公式的同學可以略過,你需要記住一點即可:
統(tǒng)計推斷,樣本量越大,越可靠。基于小樣本的結(jié)論,往往都存在問題。
以后不要再很蠢地說,你看,名校畢業(yè)的也在北京買不起房,所以學歷沒什么卵用。
3 控制變量
控制變量的意思是,控制了這個因素,來看其他因素對事物發(fā)生的影響。最直觀的表達就是 “假設(shè)其他條件不變的情況下”,這種假設(shè),就是很典型的一種控制變量的假設(shè)。
回到我們之前討論的名校畢業(yè)掙錢不多的問題,名校畢業(yè)照樣買不起學區(qū)房,很多人據(jù)此得出結(jié)論:
名校也沒什么卵用,甚至上大學也沒什么卵用,照樣買不起房,還不如王小二開個煎餅攤子掙得多。
這個推理最大的問題就是控制變量的不可比。
你在對比名校畢業(yè)生和開早餐鋪子的王小二時,隱含了一個極為重要的有關(guān)控制變量的假設(shè):
除去學歷這個因素,其他條件都是一樣,且不變的。
但很顯然,一個清北畢業(yè)生和沒上過大學的王小二,除去學歷的不同,在其他方面,也就是控制變量方面,也存在巨大的差異!
換個思路,不用橫向?qū)Ρ龋v向來看,假設(shè)其他條件不變的情況下,一個清北畢業(yè)生,沒有清北的學歷,他會過得更好還是更慘?
這樣的比較才是有意義的。
同理,也只有比較具有類似家庭背景,長相水平,努力程度的清北畢業(yè)生和一般學校甚至沒上過大學的人,他們誰掙錢多,這樣的比較才是有意義的。
英文當中有個很好的表達叫 Apple to Apple,就是比較對象要要一致。可惜我們大部分人做的都是Pear to Apple這樣的比較,毫無意義。
再說一遍,我們考察單一變量對結(jié)果的影響時,一定要保持控制變量的不變且可比。不然這樣比較得出的結(jié)論,毫無意義。
你不能因為天天撩妹的王思聰,比天天工作十六小時的投行民工,錢更多,就據(jù)此否認努力工作沒有用。你也不能因為同學有個好爸爸,就否認平民家庭出身的人奮斗沒有意義。
在考察努力這一變量對成功的影響上,你和王思聰?shù)摹翱刂谱兞肯嗤钡募僭O(shè)并不成立。
反過來,就你自己而言,控制其他變量不變,你不努力和努力的結(jié)果差異,一下子就會清晰起來。這才是思考問題的正確方式。
不少反雞湯人士認為,努力沒什么用,家庭出身決定一切,先天條件決定一切,時代大勢決定一切,這些論點,統(tǒng)統(tǒng)都是愚蠢的,也是錯誤的,因為他們忽略了控制變量的因素。
4 系統(tǒng)思維
統(tǒng)計常識除了以上三點,還有很多。比如假設(shè)檢驗,樣本和母體的關(guān)系,統(tǒng)計一類和二類錯誤,置信水平等等,文章里沒辦法一一講述。
但我認為,弄清本文的三個基本常識,已經(jīng)可以幫你避免很多愚蠢的錯誤。這些常識不是相互孤立的,在考察問題的過程當中,常常會同時運用到它們。
比如還是說名校畢業(yè)生買房的問題。
首先要問,是不是真的清北畢業(yè)生就買不起學區(qū)房,這個樣本到底有多大?是不是小樣本偏差,或者幸存者偏差得出的這個結(jié)論?
其次我們要想,清北畢業(yè)生買不起學區(qū)房,是一件多么令人驚訝的事情嗎?當然不是,因為掙錢這個事情,本身并不只和學歷相關(guān),它還和很多其他因素相關(guān)。
也因此,名校畢業(yè)的同學,也不要總覺得自己有什么了不起,你得清晰地意識到,收入水平和你的教育程度,并非因果關(guān)系。意識到這一點,能讓你認清真相,接受現(xiàn)實,并更好得在其他方面去努力。
最后,因為其他方面的因素,比如家庭出身,比如行業(yè)影響,即使名校畢業(yè)真的也買不起房,你就要因此感到沮喪和否定名校教育帶給你的價值了嗎?當然不應(yīng)該!
因為控制變量的思想告訴你,其他條件不變的情況下,你讀不讀名校,收入的差異還是非常顯著的。
除了上面的四點之外,我們再來談一談學好統(tǒng)計好處:
第一,體驗到一種與眾不同的思維方式。
最近朋友圈流行兩只大熊貓的萌對話,其中一只對另一只說,你看看我們,就知道這個世界非黑即白。另外一只大熊貓于是伸出了紅色的舌頭。這個笑話告訴我們,世界并非非黑即白。統(tǒng)計學的思維就是永遠不肯定這個世界到底是什么樣子的。統(tǒng)計學永遠是講概率的,就是可能性。莊子說,一尺之錘,日取其半,而萬世不竭。這就是一種概率思維方式。所以,嗯,我喜歡宋冬野,他唱到:昨天晚上,我差一點就他媽地死了。他到底死沒死啊。可能性,是最值得人玩味的。
第二,學會看問題,懂得數(shù)字的意義。
例如,新聞報道中經(jīng)常說某市人均收入為1萬元。每每出現(xiàn)這樣的報道,就有很多網(wǎng)友驚呼自己被平均了。為什么會造成這樣的認知錯覺呢?這是因為新聞報道并沒有告訴我們數(shù)據(jù)的分布是什么樣的。比方說,可能有20%的人掌握了80%的收入,余下80%的人掌握了總收入的20%,那這80%的人肯定覺得自己被平均了。所以,學過統(tǒng)計的人,當看到這樣的數(shù)字的時候,就會多問幾個為什么,就能明白數(shù)字背后的真實含義了。
此外,如果你學了統(tǒng)計學的抽樣原理,或許你會進一步質(zhì)疑,這個人均收入是怎么算出來的。是統(tǒng)計了全市所有人口的收入數(shù)據(jù),還是只抽取了一部分人的收入數(shù)據(jù)。如果是抽取了一部分人,是按照什么原則抽取的?這些都會影響到數(shù)據(jù)的真實性與可信性。
第三,像佛那樣懂因果,知報應(yīng)。
統(tǒng)計學常常研究兩個因素之間的關(guān)系,叫做因果關(guān)系。例如,你的學歷對你收入的影響。統(tǒng)計學家可能會說,學歷每提升一個層次,年收入將提高1.2萬元。所以不要相信讀書無用論,你要相信概率。如果你相信自己能成為比爾蓋茨,那讀書對你確實沒意義,同樣,這只是小概率事件,基本不會發(fā)生在你身上。
第四,用數(shù)據(jù)說話,讓你的說服力要爆表。
當你向領(lǐng)導(dǎo)匯報工作的時候。
新人甲是這么匯報的:
今年我們在華東市場一共投入了100萬元推廣費用。我們做了很多有影響力的活動,產(chǎn)生了良好的品牌效果。用戶對我們的產(chǎn)品非常認可,在使用后很多都成為我們的忠誠的用戶。我們在華東地區(qū)的市場占有率進一步提升。我希望明年能加大在這一地區(qū)的投入,以便產(chǎn)生更好的市場效果。
新人乙是這么匯報的:
今年我們在華東市場一共投入了100萬元推廣費用。其中,投放廣告50萬,落地活動宣傳30萬,促銷樣品20萬。共帶來3萬新增用戶,提升市場占有率5個百分點,預(yù)計在未來一年提升這一地區(qū)的銷售額500萬元。
如果你是領(lǐng)導(dǎo),你會喜歡哪個匯報?
很顯然,大部分人會選擇后者。清晰的數(shù)據(jù)能傳達清晰的信息。那些非常、很多、進一步寫在公文里或許還可以,但是在市場匯報中,這種詞匯簡直就是一團漿糊。領(lǐng)導(dǎo)早晨在家里已經(jīng)挨訓了,你就不要給領(lǐng)導(dǎo)添堵啦。
關(guān)注公眾號:
華夏經(jīng)緯數(shù)據(jù)科技
更多調(diào)研資訊>>
本站文章內(nèi)容以及所涉數(shù)據(jù)、圖片等資料來源于網(wǎng)絡(luò),轉(zhuǎn)載目的在于傳遞更多信息。版權(quán)歸作者所有,文章僅代表作者觀點,不代表華夏經(jīng)緯立場。 如涉及侵權(quán),請聯(lián)系管理員刪除。在法律許可的范圍內(nèi),華夏經(jīng)緯(廣州)數(shù)據(jù)科技股份有限公司享有最終解釋權(quán)。