ML Ops:数据质量是关键

日期:2020-10-16/ 分类:产品介绍

ML Ops 是 AI 周围中一个相对较新的概念,可注释为「机器学习操作」。如何更益地管理数据科学家和操作人员,以便有效地开发、安放和监视模型?其中数据质量至关主要。

本文将介绍 ML Ops,并强调数据质量在 ML Ops 做事流中的关键作用。

ML Ops 的发展弥补了机器学习与传统柔件工程之间的差距,而数据质量是 ML Ops 做事流的关键,能够添速数据团队,并维护对数据的信任。

什么是 ML Ops

ML Ops 这个术语从 DevOps 演变而来。

DevOps 是一组过程、手段与体系的统称,用于促进开发(行使程序 / 柔件工程)、技术运营和质量保障(QA)部分之间的疏导、配相符与整相符。DevOps 旨在偏重柔件开发人员(Dev)和 IT 运维技术人员(Ops)之间疏导配相符的文化、活动或通例。透过自动化柔件交付和架构变更的流程,来使得构建、测试、发布柔件能够更添地迅速、屡次和郑重。

而 MLOps 基于可挑高做事流效果的 DevOps 原理和做法,例如赓续集成、赓续交付和赓续安放。ML Ops 将这些原理行使到机器学习过程,其现在的是:

更快地试验和开发模型 更快地将模型安放到生产环境 质量保证

DevOps 的常用示例是行使众栽工具对代码进走版本限制,如 git、代码审阅、赓续集成(CI,即屡次地将代码相符并到共享主线中)、自动测试和赓续安放(CD,即自动将代码相符并到生产环境)。

在行使于机器学习时,ML Ops 旨在确保模型输出质量的同时,添快机器学习模型的开发和生产安放。但是,与柔件开发分别,ML 必要处理代码和数据:

机器学习首于数据,而数据来源分别,必要用代码对分别来源数据进走清洗、转换和存储。 然后,将处理益的数据挑供给数据科学家,数据科学家进走代码编写,完善特征工程、开发、训练和测试机器学习模型,最后将这些模型安放到生产环境中。 在生产中,ML 模型所以代码的形态存在的,输入数据同样能够从各栽来源获取,并创建用于输入产品和营业流程的输出数据。

固然上文的描述对该过程进走了简化,但是照样能够望出代码和数据在 ML 环境中是周详耦相符的,而 ML Ops 必要兼顾两者。

详细来说,这意味着 ML Ops 包含以下义务:

对用于数据转换和模型定义的代码进走版本限制; 在投入生产之前,对所获取的数据和模型代码进走自动测试; 在安详且可扩展的环境中将模型安放到生产中; 监控模型性能和输出。

数据测试和文档记录如何适配 ML Ops?

ML Ops 旨在添速机器学习模型的开发和生产安放,同时确保模型输出的质量。自然,对于数据质量人员来说,要实现 ML 做事流中各个阶段的添速和质量,数据测试和文档记录是专门主要的:

在益处有关者方面,质量差的数据会影响他们对体系的信任,从而对基于该体系做出决策产生负面影响。甚至更糟的是,未引首仔细的数据质量题目能够导致舛讹的结论,并纠正这些题目又会铺张许众时间。 在工程方面,急于修复下游消耗者仔细到的数据质量题目,是消耗团队时间并缓慢腐蚀团队生产力和士气的头号题目之一。 此表,数据文档记录对于一切益处有关者进走数据交流、竖立数据相符同至关主要。

下文将从专门抽象的角度介绍 ML pipeline 中的各个阶段,并商议数据测试和文档记录如何适宜每个阶段。

1. 数据获取阶段

即使是在数据集处理的早期阶段,从永远来望,对数据进走质量检查和文档记录能够极大地添速操作。对于工程师来说,郑重的数据测试专门主要,能够使他们坦然地对数据获取 pipeline 进走更改,而不会造成不消要的题目。同时,当从内部和表部上游来源获取数据时,为了确保数据展现未意料的更改,在获取阶段进走数据验证是专门主要的。

2. 模型开发

本文将特征工程、模型训练和模型测试行为中央模型开发流程的一片面。在这个一向迭代的过程中,围绕数据转换代码和声援数据科学家的模型输出挑供声援,所以在一个地方进走更改不会损坏其他地方的内容。

在传统的 DevOps 中,经历 CI/CD 做事流进走赓续的测试,能够迅速地找出因代码修改而引入的任何题目。更进一步,大无数柔件工程团队请求开发人员不光要行使现有的测试来测试代码,还要在创建新功能时增补新的测试。同样,运走测试以及编写新的测试答该是 ML 模型开发过程的一片面。

3. 在生产中运走模型

与一切 ML Ops 相通,在生产环境中运走的模型倚赖于代码和输入数据,来产生郑重的效果。与数据获取阶段相通,吾们必要珍惜数据输入,以避免原由代码更改或实际数据更改而引首的不消要题目。同时,吾们还答该围绕模型输出进走一些测试,以确保模型不息已足吾们的憧憬。

尤其是在具有暗盒 ML 模型的环境中,竖立和维护质量标准对于模型输出至关主要。同样地,在共享区域记录模型的预期输出能够协助数据团队和益处有关者定义和传达「数据相符同」,从而增补 ML pipeline 的透明度和信任度。