首页    新闻    小组    威客    人才    下载    博客    代码贴    在线编程    论坛
JetBrains 联手 Linux 基金会,发布 AI 编码智能体基准测试平台 DPAI Arena
2025年11月17日 20:27 | 阅读 120 次

JetBrains 宣布推出 Developer Productivity AI Arena (DPAI Arena),并将其捐献给 Linux Foundation。

根据介绍,DPAI Arena 是业内首款开放式、多语言、多框架和多工作流基准测试平台,旨在衡量 AI 编码智能体在现实世界软件工程任务中的成效。 它围绕灵活且基于路径的架构构建而成,能够对各种工作流(例如,修补、bug 修正、PR 审查、测试生成、静态分析等)进行公平、可重现的比较。

DPAI Arena 将可衡量的工作效率带入 AI 辅助软件开发领域。 AI 工具提供商可以在实际任务中对其工具进行基准测试和不断完善,技术供应商可以通过贡献领域特定的基准来帮助其生态系统维持一流水平,企业在采用某些工具前可以获得可信的方式对其进行评估,开发者可以获得有关哪些工具能够真正提高工作效率的透明洞察。

DPAI Arena 旨在让每个人都能为 AI 编码的未来做出贡献。 Spring Benchmark 是该平台的第一项基准,它带来了针对未来贡献的技术标准。 首先,它实现了数据集创建准则,并详细说明了支持的评估格式和一般规则。 其次,它为解耦基础架构提供了坚实的基础,使任何人都能采用自己的数据集(BYOD 方式)并重用基础架构进行自己的评估。

我们也在关注 Spring AI Bench,以扩展 DPAI Arena 中的 Java 基准测试流,并与该项目的核心团队紧密合作以推动 Java 生态系统中的更多可变性和多路径基准测试。

JetBrains 首席执行官 Kirill Skrygan 称,“Developer Productivity AI Arena 旨在实现清晰且可追责的方法,以持续且协作的方式评估和改进 AI 编码智能体,并帮助行业了解甚至衡量仅能加快工作速度的 AI 与能够真正理解和促进工作效果的 AI 之间的区别。 我们希望通过定义一种用于 AI 智能体基准测试的共享框架,来促进整个 AI 系统的透明度和可信度。”

(文/开源中国)    




评论 (0)
游客请输入验证码
最新评论
0
0
收藏