基本信息

FlagEval 是一个面向AI大模型的开源评测工具包,同时也是一个开放的评测平台。

FlagEval 评测平台的目标是覆盖三个主要的评估对象——基础模型、预训练算法以及微调/压缩算法,以及四个关键领域下丰富的下游任务,包括自然语言处理(NLP)、计算机视觉(CV)、语音(Audio)和多模态(Multimodal)。您可以在我们的官方网站 flageval.baAI.ac.cn 上找到更多信息。我们致力于建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。

FlagEval 开源评测工具包现在包含以下子项目。

“悟道·天秤”(FlagEval)是北京智源人工智能研究院发布的悟道3.0大模型系列之一,包含“悟道·天鹰”(Aquila)语言大模型系列、天秤(FlagEval)开源大模型评测体系与开放平台,以及一系列多模态模型成果。

FlagPerf建立了评测Case的各项标准、支持容器内评测模式;新增国产芯片的评测系列,包括昆仑芯、天数智芯等;评测系列从语言大模型扩展到多种主流视觉模型。FlagEval包含多种开源多模态模型评测工具和FlagEval(天秤)大模型评测平台。FlagData包含数据分析工具、数据清洗工具、微调数据标注工具等。