2023年后,AI 还有什么研究方向有前景?

让我们先了解一下数据中心的人工智能(Data-centric AI),然后再讨论其重要性。


什么是Data-centric AI?


Data-centric AI是一种全新的AI系统构建理念,由著名AI专家吴恩达大力推崇。吴恩达提出了Data-centric AI的定义,传统的构建AI模型方法是通过迭代模型来提高预测准确率,数据相对固定。通常会关注几个基准数据集,然后设计各种模型来提高预测准确率,这种方法称为以模型为中心(model-centric)。但是,model-centric方法没有考虑到实际应用中数据可能出现的各种问题,例如不准确的标签、数据重复和异常数据等。高准确率的模型只能确保很好地“拟合”数据,但并不能保证在实际应用中表现良好。与model-centric不同,Data-centric更侧重于提高数据的质量和数量。也就是说,Data-centric AI关注的是数据本身,而模型相对稳定。采用Data-centric AI的方法在实际场景中有更大的潜力,因为数据很大程度上决定了模型能力的上限。需要注意的是,“Data-centric”与“Data-driven”(数据驱动)是两个根本上不同的概念。后者仅强调使用数据指导AI系统的构建,仍然聚焦于模型开发而不是改变数据。


为什么Data-centric AI是未来?


过去,研究人员的重点通常放在模型的设计上。然而,如今经过多年的研究,模型设计已经相对成熟,尤其是在Transformer模型的出现之后,我们似乎还没有看到这种模型的极限。从最初的GPT-1到现在的ChatGPT/GPT-4,所使用的训练数据经历了以下变化:从小型数据(对于OpenAI来说)到更高质量的大型数据,再到由高质量人类标注的数据。模型设计并没有发生很大的变化,除了为了适应更多的数据而增加了更多的参数,这与Data-centric AI的理念是一致的。从ChatGPT/GPT-4的成功可以看出,高质量的标注数据至关重要,而OpenAI对数据和标签质量的重视程度令人震惊。从另一个角度来看,现在的ChatGPT/GPT-4模型已经足够强大,我们只需要调整提示(推理数据)来达到各种目的,而模型则保持不变。例如,我们可以提供一段长文本,再加上特定的指令,比如“summarize it”或者“TL;DR”,模型就能自动生成摘要。在这种新兴模式下,Data-centric AI变得更为重要。未来,许多AI从业者可能不再需要训练模型,而只需要进行提示工程(prompt engineering)。因此,在大模型时代,Data-centric AI的理念将变得越来越重要。