FlagEval

https://github.com/flageval-baai/FlagEval/blob/master/README_zh.md

2026-01-04 评论 0 阅读：1

flageval ai内容检测

基本信息

FlagEval 是一个面向AI大模型的开源评测工具包，同时也是一个开放的评测平台。

FlagEval 评测平台的目标是覆盖三个主要的评估对象——基础模型、预训练算法以及微调/压缩算法，以及四个关键领域下丰富的下游任务，包括自然语言处理（NLP）、计算机视觉（CV）、语音（Audio）和多模态（Multimodal）。您可以在我们的官方网站 flageval.baAI.ac.cn 上找到更多信息。我们致力于建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主观评测的辅助，大幅提升评测的效率和客观性。

FlagEval 开源评测工具包现在包含以下子项目。

“悟道·天秤”（FlagEval）是北京智源人工智能研究院发布的悟道3.0大模型系列之一，包含“悟道·天鹰”(Aquila)语言大模型系列、天秤(FlagEval)开源大模型评测体系与开放平台，以及一系列多模态模型成果。

FlagPerf建立了评测Case的各项标准、支持容器内评测模式；新增国产芯片的评测系列，包括昆仑芯、天数智芯等；评测系列从语言大模型扩展到多种主流视觉模型。FlagEval包含多种开源多模态模型评测工具和FlagEval（天秤）大模型评测平台。FlagData包含数据分析工具、数据清洗工具、微调数据标注工具等。

FlagEval

基本信息

相关推荐

用户登录

用户注册

举报反馈