当前位置:首页 > 业界动态 > 正文

小米广告大数据与算法实践

关于作者

宋强,10多年的资深码农,做过后端开发,玩过大数据,对机器学习算法也有一定了解。 目前在小米商业产品部负责广告业务的研发,包括小米自有流量变现和移动网络联盟业务。 本文整理自宋强在杭州大数据与架构峰会上的分享,展现了他对行业的细致观察和深刻见解。

小米生态大数据

小米是一家硬件公司,也是一家移动互联网公司,但我更愿意把小米看作一家大数据公司。 硬件方面,过去几年,小米手机销量超过2亿部,电视、盒子销量超过1500万台。 此外,路由器、手环等生态链产品的销量也非常好。 软件方面,深受用户喜爱的MIUI是深度定制的Android系统。 依靠强大的硬件销售和MIUI等软件系统,小米在过去的几年里积累了完整的生态系统和多样化的大数据。 包括APP使用情况、搜索/购物/社交/娱乐等数据。

小米生态大数据构成

小米大数据应用

小米大数据广泛应用于各业务线,包括以下场景:

小米广告平台

以小米移动生态发起者身份打造的广告平台,服务于小米应用商店、浏览器、一点网、小米电视等软硬件等数十项业务变现。 支持应用游戏下载、信息流、搜索、开屏、视频贴片、电视画报等十余种主流及创新移动广告形式。 专注于基于2亿MIUI用户画像的移动原生广告、多屏互动、精准投放。

小米广告产品示例

小米广告算法实践

近两年来,算法团队从点击预估开始,逐步拓展到反作弊、用户体验优化、广告主ROI优化、智能竞价、预算平滑等方向。 已经取得了一些成就,也克服了许多困难。

这是一个简单的点击预估架构图:

点击估计简单架构图

点击预测工作大部分时间都花在特征挖掘和模型优化上。 特征挖掘更像是一门艺术,需要熟悉业务和灵感。 算法工程师的日常工作就是寻找与用户点击广告相关的信号。 它们中的大多数可能都是微弱的信号,只有组合起来才能产生强大的信号。 模型是一个武器库。 这两年我们在实验中尝试了离线LR、在线FTRL、非线性模型FM和GBDT以及深度模型。 我们收获了很多,但也遇到了很多陷阱。 除了特征工程和模型优化之外,在线CTR服务也非常具有挑战性。 我们还做了很多系统优化和工程相关的工作。

前面已经提到,小米广告平台支持多种产品形态,下面将分别讨论。

点击估算 - 应用程序分发

在移动互联网发展的今天,应用推广仍然是效果广告主的首要需求。 依托小米应用商店、浏览器和小米视频等应用,应用分发已成为小米广告平台收入的重要组成部分,而算法优化是持续增加收入的有力工具。

在特征工程方面,我们尝试了以下几类特征:

用户特征:人口统计属性、系统信息……

广告特征:id、类别、位置……

用户行为特征:应用安装历史、最近下载、最近使用……

用户广告行为特征:广告展示点击下载次数...

组合特征(笛卡尔积):用户特征×广告特征……

其中,用户行为特征被证明是最有效的,也是与业务/产品形态关系最密切的特征。 模型方面,从最初的LR到日级的FTRL,再到小时级的FTRL,效果逐步提升。

点击估计 - 搜索

这里的搜索也指应用搜索,主要依靠应用商店和浏览器的巨大搜索流量来变现。 请参考下图:

应用搜索界面

在模型优化方面,最初的模型是纯文本相关性模型,主要考虑搜索关键词与广告文本(包括应用名称、描述等)之间的相关性。 然后我们尝试了行为相关性模型,该模型主要是基于协同过滤的思想来计算两个App的相似度(基于item)。 今年我们正式采用了点击率模式,我们的收入也大幅增长。

在特征工程方面,与应用分发类似,特征也有几类。 需要强调的是,搜索上下文特征在搜索场景中最为有效。

上下文特征:搜索关键词、搜索自然结果和类别、搜索来源……

广告特征:id、类别、广告标题……

用户特征:人口统计属性、系统信息……

组合特征:用户特征×广告特征、搜索上下文特征×广告特征……

点击预估-信息流

信息流广告起源于Facebook,在国内多个广告平台(如头条、微博等)取得了成功。 信息流的广告形式有大图、小图、群图等,广告类型有应用分发、H5、视频等,竞价方式也多种多样,包括CPC、CPD、CPM、CPT等。小米信息流广告的主要载体是一点新闻和浏览器,这也是我加入小米后接手的第一个业务。

信息流广告的算法优化与应用分发的算法优化类似,但也存在一些差异。 信息流广告素材更新频繁,广告数量较多。 反思模型方面,小时级FTRL模型相比日级模型有了显着的改进。

点击估计 - 浏览器导航

传统的浏览器导航销售一般采用CPT,以固定价格足量销售给固定广告商。 所有用户看到的都是同一个导航入口,这“对每个人来说都是一样的”。 这种方法的主要问题是广告商的投资回报率很低。 广告商花了很多钱,但有些用户根本不会点击。

浏览器导航界面

我们引入了浏览器导航的个性化算法,将导航入口按照用户划分为多个流量,分别卖给不同的广告商,即“一人一页到千人一页”,销售方式也从“人工排名”变为“准实时竞价”(即每次拍卖后一段时间内保持不变,比如两周)。 每个人的网站都会有所不同,充分的个性化将会大大提高效果。

算法平台

早期的模型训练是简单的单机多线程。 后来,随着业务的快速发展,需要同时对100多个广告位进行CTR/CVR模型训练,每个模型的特征和训练样本也迅速增加到数亿。 即使有数十亿关卡,单机版也已经无法满足需求。 所以我们基于参数服务器框架构建了一个分布式算法平台,可以支持100多个模型的分布式并行训练,并且可以支持FTRL小时级的模型训练。

0
收藏0

最新文章

随机文章

取消
扫码支持支付码