京东技术开放日20期

最近逛脉脉比较多,没有什么特别的原因,可能跟那些喜欢用快手、今日头条的人无恙吧,只是打发时间而已。无意中发现京东在国家会议中心有个人工智能平台的技术开放日,看介绍貌似会涉及到底层架构、tensorflow on kubernetes等内容,便顶着雾霾的天气去凑个热闹了。

开放日是在国家会议中心的三楼。报到的时候还有一点小插曲,原本在活动行上已经成功报名的一些人的名字居然不在签到表上,工作人员便让我们等着。不过后来貌似也没多少人,便让我们进去了。这里吐槽下活动行,报名成功却不在名单上,而且找客服居然要我先加qq?不过这都不重要了,关键是分享的内容是否真的是京东的干货~

今天的技术开放日分享的几位同学都是来自京东的AI算法平台部,第一位同学分享的是京东开发的人工智能平台,其实就是另外一个降级的odps,只不过把数据预处理、特征工程、模型训练、模型评估等操作封装成组件而已,提供了XGBoost, Caffe, Tensorflow的训练入口,然后利用kubernetes进行运算集群的调度管理。根据这位同学的介绍,我理解的应该是用户在构建好自定义的数据处理pipeline之后,会通过接口将任务提交给kubernetes调度中心,然后kubernetes根据node的状态起相应的任务,同时回传日志和状态等信息。如果运行调度的效率能忍的话,对于京东而言应该也能提升业务线算法和策略的迭代效率。不管如何,能够给公司各个产品线带来收益的都是好产品~~(突然想到,度厂连这个平台都没有,一丝凉意上心头~~)

第二位同学分享的内容略显教条,但是是传统机器学习方法中十分重要的环节-特征工程。具体介绍了在选取样本、特征处理的一些常见方法,比如正负样本比例、缺失值处理、特征重要性衡量等。也给了一个在京东电商业务场景下该方法的一些实践,不过和之前天池比赛的方法差不多,都会用到用户特征和商品特征,然后还有一些组合特征,当然时间窗口特征也会考虑进去。不过,分享的同学将自己的正负样本经过对正样本进行up sampling然后对负样本进行down sampling之后使得正负样本比例为1:8,就存在在测试集合上如果模型预测的都是负样本的话,在测试集上也有88.88%的准确率,这一点我表示疑惑,有朋友在提问环节也提出了质疑,但是最后解释的也不是很清楚, 其实如果在分类问题中,如果正负样本比例不均衡(正负比例为m’/m)的时候,除了对样本本身做出处理之外,比如down/up sampling,也可以在预测的阶段进行rescaling, 即原来是按照y’/(1-y’)>1则为正例的规则,现在是(y’/(1-y’) * (m’/m))的结果作为判别的依据[1].

第三位是来自nvidia的博士,介绍了nvidia为了适应AI时代的发展所做的一些事情,说nvidia发力AI是因为看到了google买大量的显卡,作为一个不搞游戏的公司买那么多显卡肯定有鬼,最后发现他们是拿去跑深度学习训练任务去了,于是黄教主就开始发力nvidai系列显卡在deep learning的应用。cuda的编程在硕士阶段接触过一些,相比于cpu的计算能力来说确实不是盖的,而且对于深度神经网络的训练和Inference而言,在forward和Backward阶段都需要大量的矩阵运算,而这些矩阵运算如果用gpu来进行加速的话,那效果必然是杠杠的!所以现在主流的深度学习框架都会支持gpu的运算,最后博士介绍了nvidia和京东在视频分析的工作,以前本科的时候觉得这是个不可能完成的任务,因为计算量和数据量都太大了,但是nvidia显卡却可以能够同时对多个视频源进行单帧分析,进行行人、车辆检测,这性能确实十分impressive.

最后一位是资深架构师,毕竟是架构师,架构图画的十分清晰明了,对于我这种架构小白顺着他的解说也能看明白个一二,这位架构师主要是介绍了kubernetes的一些内容,然后京东如果用Kubernetes去实现一些计算任务的调度和管理。

总之,今天收获还不错~

参考:
《机器学习》周志华教授

Leave a Reply

Your email address will not be published. Required fields are marked *