数据英雄

数据英雄:Erick Watson谈自动化估值模型
采访者:Heidi Miller
数据英雄系列博客聚焦数据行业思想领袖,深入探讨日常管理、治理和利用企业数据的优势与挑战。
认识Erick Watson
我是Erick Watson,Quantarium企业发展副总裁。Quantarium是Xome旗下的大数据创业公司,而Xome又归属于Nationstar Mortgage(目前正在更名为Mr. Cooper)。我们是Mr. Cooper的数据科学部门,雇用来自世界各地的数据科学家来管理和解析房地产数据。
你在工作中如何使用数据?
我们汇总和整理住宅房地产数据,帮助买家和卖家准确定价。这被称为自动化估值模型(AVM),是抵押贷款行业中常用的一种数据模型,用于预测性地理解房产价值。如果你曾访问过Zillow或Redfin,你可能看到过可以查询自己房屋价值的功能。该估值就是由我们这样的算法提供的。
获取房产的公开数据很容易,比如最近几位购买者以及房屋价值的历史变化。更具挑战性的是发现与该房产互动过的人的数据并预测他们的行为。例如,最近几位购买者的信用评级是多少,他们是否可能很快出售房屋?
另一个重大挑战是数据整理。大多数人都知道房产经纪人使用的MLS系统来挂牌出售房屋。虽然MLS提供了大量数据,但它(a)价格昂贵,(b)不同地区的格式各不相同。因此,一个大挑战是规范化这些来自不同MLS的海量异构数据,并将其与其他来源整合。
我们汇总了美国各地数百万条房屋所有权记录,因为在这个行业中,覆盖率和准确性至关重要。想象一个手机运营商吹嘘其网络覆盖——他们必须在全国提供可靠的覆盖,否则在覆盖不足的市场中就会败北。AVM也类似,就像一场军备竞赛。我们必须以高精度覆盖美国大部分住宅,才能被视为达到了这一最低标准。
幸运的是,我们拥有业界领先的数据科学家。我们的算法——Quantarium估值模型(QVM)是一个高度精确的AVM。在行业领先的独立AVM评估机构进行的最新盲测中,Quantarium在准确性和覆盖率两项指标上均排名第一。此外,我们的三个模型在准确性方面位列前四,三个在覆盖率方面位列前五。
你是如何成为数据专家的?
过去几年我的背景主要是产品开发。之前我在另一家叫Moodwire的创业公司工作,该公司对海量文本语料进行文本分析。Moodwire从Twitter、Facebook和数万个其他来源收集文本,将文本转换为数字以便数学处理,创建文本中提及的概念和事物的详细知识图谱,并在其上添加分析功能以更轻松地理解和筛选数据。
例如,几个月前美国总统大选是一个热门话题。Moodwire的数据科学家实际上提前数月预测了选举结果——我们的数据显示特朗普将轻松赢得选举。然而,当时这一数据与公众认知、主流媒体和几乎所有当时发布的政治民调都相悖,所以我们只是假设我们在数据处理的某个环节出了错。缺乏自信导致我们没有公布结果。与此同时,我们不断寻找错误,但就是找不到!
回想起来,我们应该大胆发布预测并承担后果。经验教训:如果你对自己的数据和流程有信心,就应该坚持它们。
我们确实发表了一篇科学论文,展示了数据如何随时间变化。你可以清楚地看到一些与总统辩论发生时相关的模式。我们从数据中获得的最有趣的发现是,大多数公开表达意见的人对克林顿的厌恶程度远超特朗普。所以基本上,两位候选人都不受欢迎,但一位比另一位的被厌恶程度稍低。
我们还发现了一些Twitter操纵行为,很可能是两方都在使用机器人来向公众传播各自的观点。特朗普竞选团队更有效地利用了这些技术,这就是为什么社交媒体上常常更有利于特朗普。总体而言,我们的数据反映了人们对美国政治体制的普遍消极情绪,以及对候选人本身的态度。一般来说,人们觉得自己被迫在两害中择其轻。从特朗普拥有多年来最低的就任支持率这一事实中,你可以更清楚地看到这一点。
你在工作中面临的最大数据挑战是什么?
最大的挑战是理解人们个人生活与房产使用之间的交叉点——同时尊重个人隐私。想一想一个人购买或出售房屋的原因。典型原因可能包括重大生活事件,如结婚、离婚、去世、新工作或子女离家。所有这些事件通常会触发一个人购买或出售房屋的决定。我们的工作是预测哪些房屋将被买卖以及价格如何,以便为更高效的市场做出贡献并减轻房地产交易的负担。
一个关键问题是如何道德地、准确地从人们那里获取关于其生活阶段的信息,同时确保这些信息不可被个人识别。例如,知道某个邮政编码区域有多少人即将结婚对我们很有帮助,这表明一些房屋可能很快会被买卖。我们不需要知道谁要结婚;我们只需要知道某个区域有多少人,以便将这些数据添加到我们的模型中。
你在数据方面正在做什么新的有趣的事情?
我们的梦想目标是对客户了解得足够多,能够为他们推荐一份理想的房屋清单。通过我们自己的分析和客户愿意暂时与我们分享的私人信息的结合,我们可以生成一份潜在房屋清单,或者如果你在出售,优化你应该出售的价格和条件。房地产市场受到高度监管,因此买卖房屋的过程往往比大多数消费者希望的更加复杂和昂贵。这种监管负担是住宅经纪人成为买卖双方之间某种"祭司阶层"中介的原因之一。消费者希望降低交易成本,而互联网对房地产数据产生了令人难以置信的民主化效应。为了应对这些趋势,房地产行业被迫朝着提供更便宜、更精简、更透明的流程发展。
回想你第一次购房时,你可能有一系列标准——你能负担多少、离工作地点的距离、社区设施等。历史上,住宅经纪人是帮助你确定这些标准并做出购买决定的中介。现在,经验数据可以帮助你做出更好、更明智的决定。这有点像TurboTax,这款软件让一些人可以取代会计师自己报税。今天在住宅房地产中,消费者现在有了这个选择:你可以付费请专业房产经纪人为你完成所有工作,或者你可以使用生产力软件自己来做。像我们这样的公司正在为住宅市场的消费者创造更多选择。
未来,我可以想象一个场景:客户可以拿着手机走近看房,将手机对准密码锁进行身份验证并获准进入,然后通过手机上的应用听到带有注释的房屋导览。即使现在,视频看房也是一种趋势,这要归功于新的全景相机应用,允许卖家进行个人旁白。音频和视频可以在你走过房屋时流到你的手机上,你的位置会触发关于该房间特色的新评论。
你看到了什么别人没有看到的数据趋势?
让我个人感到非常惊讶的一个趋势是,你能从一个人的数字足迹中了解到多少信息。我们都在身边留下这些数字足迹,大多数人没有充分理解因此对其隐私的威胁。即使作为数据行业的从业者,我也震惊于你能在不知不觉中合法地从某人那里了解到多少。从我们日常交易中留下的数据中获取大量信息已经变得非常容易。
幸运的是我还没有遇到过恶意行为者,但我想提高人们对隐私问题的认识。数据科学家和消费者都更关注不惜一切代价获取所需的信息或服务,可能没有充分意识到隐私问题。我们为保护和捍卫隐私所做的越多,作为一个持久的自由民主社会就越健康。不要把你的隐私当作理所当然!
相关: 数据先驱访谈:预测买家行为
有兴趣合作?
预约通话