21世纪经济报道新质生产力研究院综合报道早上好,新的一天又开始了。在过去的24小时内,科技行业发生了哪些有意思的事情?来跟21tech一起看看吧。【巨头风向标】QQ接入微信小程序。手机QQ客户端,包括iOS和安卓双端,已接入微信小程序功能,用户将自己的客户端更新至最新版本后即可体验到相关功能。目前这
2025-04-27 11:09:00 0
IT之家 4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。
在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。
Multi-SWE-bench 旨在推动自动编程技术从仅能解决单一语言(如 Python)和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。
SWE-bench 是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于 GitHub issue,要求模型自动定位并修复 Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。
Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:
首次覆盖 7 种主流编程语言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),构建多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;
引入任务难度分级机制,将问题划分为简单(Easy)、中等(Medium)和困难(Hard)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;
1,632 个实例全部来源于真实开源仓库,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。
IT之家附开源链接:
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:
论文链接:https://arxiv.org/ abs / 2504.02605
榜单链接:https://multi-swe-bench.github.io
代码链接:https://github.com/ multi-swe-bench / multi-swe-bench
数据链接:https://huggingface.co/ datasets / ByteDance-Seed / Multi-SWE-bench
相关推荐
21世纪经济报道新质生产力研究院综合报道早上好,新的一天又开始了。在过去的24小时内,科技行业发生了哪些有意思的事情?来跟21tech一起看看吧。【巨头风向标】QQ接入微信小程序。手机QQ客户端,包括iOS和安卓双端,已接入微信小程序功能,用户将自己的客户端更新至最新版本后即可体验到相关功能。目前这
2025-04-27 11:09:00 0
4月25日,云天励飞(688343)公布2024年年报和2025年一季报。数据显示,2024年云天励飞营业收入超9亿元,同比增长81.3%。2025年第一季度营收达2.64亿元,同比大增168.23%,创历史同期新高;净亏损同比缩减37.9%,显著收窄。云天励飞同日公告,为进一步提高公司综合竞争力,
2025-04-27 09:42:00 0
2025年,生成式AI技术迎来“奇点时刻”,DeepSeek等国产开源大模型的爆发式迭代,将人工智能的“知识平权”浪潮推向新高度。金融行业作为数据密集型领域,天然适合人工智能技术的应用。而保险业因其复杂的产品逻辑、海量交互场景和精算依赖特性,成为AI技术落地的前沿阵地。在政策层面,《政府工作报告》连
2025-04-22 00:43:00 0
据日本媒体报道,日本海上自卫队今年2月开工建造新型巡逻舰,首批4艘,预计2027年3月前完工交付服役。总的采购量达12艘,要求在10年内完成。将彻底取代海上适应性不佳的“隼”级导弹艇,尽管其本身直接作战能力不强,但超出“隼”级导弹艇一倍的数量,实际上大大强化了日本海自对周边海域的监视能力,从而使日本
2025-04-21 22:42:00 0
记者21日从中国石油辽河油田获悉,中国石油辽河油田储气库群4口扩容上产新井近日陆续开钻,标志着该储气库群新一轮扩容调峰工程正式启动。此轮扩容调峰共部署8口新井,实施后辽河储气库群调峰能力与保供能力将进一步提升。辽河储气库群自2014年投运,已完成十一轮注气、九轮采气,随着注采周期延长,调峰能力逐年增
2025-04-21 17:14:00 0