系列前言
海鼎科技·專家課程
在接觸對(duì)接了行業(yè)千余家客戶的數(shù)字化需求之后,我們發(fā)現(xiàn),商業(yè)地產(chǎn)企業(yè)中不乏具有熱血與沖勁的專業(yè)型人才。他們或?yàn)榱松虡I(yè)集團(tuán)、項(xiàng)目的發(fā)展貢獻(xiàn)著寶貴智慧,或在學(xué)術(shù)領(lǐng)域沉淀著極具價(jià)值的架構(gòu)體系。
今天,我們將他們請(qǐng)到海鼎科技專家課程系列的現(xiàn)場(chǎng),為更廣大行業(yè)的受眾“曝光”他們的所學(xué)、所識(shí)、所感,將私藏的干貨展現(xiàn)給行業(yè)大眾,造福行業(yè)加速發(fā)展。
本期專家介紹
劉烜超先生
2010年進(jìn)入零售業(yè)工作,歷任多家商業(yè)項(xiàng)目的IT部門(mén)負(fù)責(zé)人。經(jīng)歷7個(gè)項(xiàng)目(3個(gè)籌開(kāi))的發(fā)展與成熟,其中包括百貨、購(gòu)物中心、商街、超市、綜合體等多業(yè)態(tài),專長(zhǎng)于商業(yè)地產(chǎn)數(shù)字化板塊工作。
在數(shù)據(jù)分析專業(yè)領(lǐng)域中,其于15年深入研究統(tǒng)計(jì)學(xué),19年初通過(guò)法國(guó)ESSEC商學(xué)院數(shù)據(jù)分析專業(yè)認(rèn)證,2021年獲得聯(lián)合國(guó)下屬機(jī)構(gòu)TRL Alliance 授予的 Independent Scientist 認(rèn)證 以及 TRL 志愿翻譯者資格。同時(shí)作為Unity、Unreal虛擬現(xiàn)實(shí)獨(dú)立開(kāi)發(fā)者,參與某高校藝術(shù)與科學(xué)專業(yè)的數(shù)據(jù)可視化藝術(shù)作品的研討和作品制作。
寫(xiě)在前面·作者序:
商業(yè)數(shù)據(jù)分析(簡(jiǎn)稱BA),結(jié)合頭幾年 Big data、AI 的風(fēng)口,被甲乙方炒得火的不能再火。一時(shí)間,IoT、新BI、新零售等等新概念層出不窮。
本人在商業(yè)的IT部門(mén)工作了11年,在這些年的項(xiàng)目經(jīng)驗(yàn)中,發(fā)現(xiàn)商業(yè)公司開(kāi)始越來(lái)越重視數(shù)據(jù)了。然而在實(shí)際運(yùn)作中,要投入的不僅是資金這么簡(jiǎn)單,專業(yè)素質(zhì)、理論基礎(chǔ)以及上層領(lǐng)導(dǎo)的理解和支持,方方面面缺一不可。有時(shí)候不同項(xiàng)目間千差萬(wàn)別,報(bào)表又很單一,分析手段也是20年前的標(biāo)準(zhǔn), BA&BI 的推進(jìn)如此緩慢也是情理之中的事情。
在過(guò)去的實(shí)際分析經(jīng)驗(yàn)中,我發(fā)現(xiàn)傳統(tǒng)商業(yè)分析的結(jié)構(gòu)是相當(dāng)單一的,同比環(huán)比分析、漏斗下鉆、分類匯總,配合多種維度:例如銷售、坪效、租決等等,得到的分析往往不能理解數(shù)據(jù)之中本身蘊(yùn)含的意義。針對(duì)這個(gè)問(wèn)題,我通過(guò)結(jié)合國(guó)內(nèi)外大量文獻(xiàn)和資料,以及借鑒其他行業(yè)的分析方法,將用以下4個(gè)章節(jié)粗略描繪一下這些年的分析手段和經(jīng)驗(yàn):
第一章:商業(yè)數(shù)據(jù)處理以及描述性分析
第二章:相關(guān)性分析、數(shù)學(xué)模型應(yīng)用
第三章:無(wú)監(jiān)督學(xué)習(xí)下的客群統(tǒng)計(jì)和店鋪統(tǒng)計(jì)
第四章:數(shù)據(jù)可視化
接下來(lái),讓我們進(jìn)入本期課程的第一章學(xué)習(xí)內(nèi)容:“商業(yè)數(shù)據(jù)處理以及描述性分析”。
分析中用到的軟件和語(yǔ)言僅供參考
商業(yè)數(shù)據(jù)的特點(diǎn)和缺失值處理
Shopping mall 的存在本質(zhì)是合理控制租賃方經(jīng)營(yíng)成本,在與承租方的履約過(guò)程正常的情況下,租賃方不會(huì)造成因人員、促銷等費(fèi)用產(chǎn)生的巨大投入(相比百貨和超市)。
但國(guó)內(nèi)外的購(gòu)物中心都有一個(gè)核心問(wèn)題,銷售無(wú)法及時(shí)獲取,這也是造成數(shù)據(jù)收集和分析困難的巨大問(wèn)題。往往我們看到一個(gè)店鋪的銷售數(shù)據(jù)表現(xiàn)是這樣的:
某商場(chǎng)在定義區(qū)間范圍內(nèi)的品牌交易數(shù)據(jù),其中缺失值用黃色表示。如圖所示,該品牌的銷售數(shù)據(jù)缺失方式為不規(guī)則不定期缺失,因此需要考慮使用插值補(bǔ)全的方式嘗試補(bǔ)全數(shù)據(jù)。但同時(shí)要注意,補(bǔ)全銷售后,可能直接影響現(xiàn)有銷售的表現(xiàn)。因此插值之后還需要進(jìn)行檢驗(yàn),最快捷的方式可以用ANOVA檢驗(yàn)方差,如果方差不大于一個(gè)閥值則表明插值結(jié)果可用,或采用直觀的圖形可視化觀察數(shù)據(jù)走勢(shì)從而判斷數(shù)據(jù)的可讀性。
在做這一步前必須要明確一點(diǎn):插值處理就是在原始數(shù)據(jù)沒(méi)有的情況下,根據(jù)該品牌銷售實(shí)際存在的數(shù)據(jù)進(jìn)行數(shù)學(xué)模擬,并填補(bǔ)進(jìn)空缺位置。這個(gè)方式用于找到數(shù)據(jù)的趨勢(shì),而不是具體的單日對(duì)比、環(huán)比。
插值補(bǔ)全有多種辦法,本人習(xí)慣使用KNN、簡(jiǎn)單插值和貝葉斯插值法進(jìn)行比較,以下圖中列出了三種不同插值的結(jié)果。在插值范圍內(nèi)需要觀察數(shù)據(jù)的一致性和周期性,從而最終確定插值的方式。當(dāng)然由于不同品牌經(jīng)營(yíng)方式也不同,插值不可能是統(tǒng)一算法,否則有可能產(chǎn)生基于隨機(jī)數(shù)的數(shù)學(xué)規(guī)律,導(dǎo)致不應(yīng)出現(xiàn)的噪聲。