今(14)日,随着英语学科考试结束的铃声响起,重庆市2025年初中学业水平暨高中招生考试落下帷幕。今年英语的命题思路是什么?试题有什么特点?考试结束后,市教委组织命题专家和一线名师对此进行了解读。沙坪坝区教师进修学院英语研修员冯丽命题专家:强调语用、表达,推动从“解题”到“解决问题”的质变命题专家表
2025-06-14 12:42:00 0
IT之家 4 月 10 日消息,豆包大模型团队今日通过官方公众号宣布,首个多语言类 SWE 数据集 Multi-SWE-bench 现已正式开源,可用于评估和提升大模型“自动修 Bug”能力。
在 SWE-bench 基础上,Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。
Multi-SWE-bench 旨在推动自动编程技术从仅能解决单一语言(如 Python)和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。
SWE-bench 是当前最具代表性的代码修复评测基准,强调任务真实、难度高。它基于 GitHub issue,要求模型自动定位并修复 Bug,兼具跨文件修改、复杂语义推理与上下文理解等挑战。
Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足,系统性评估大模型在复杂开发环境下的“多语言泛化能力”,推动多语言软件开发 Agent 的评估与研究,其主要特性如下:
首次覆盖 7 种主流编程语言(包括 Java、Go、Rust、C、C++、TypeScript、JavaScript),构建多语言开发环境下的代码修复任务,系统评估模型的跨语言适应与泛化能力;
引入任务难度分级机制,将问题划分为简单(Easy)、中等(Medium)和困难(Hard)三类,涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战;
1,632 个实例全部来源于真实开源仓库,并经过统一的测试标准和专业开发者的审核筛选,确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。
IT之家附开源链接:
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving:
论文链接:https://arxiv.org/ abs / 2504.02605
榜单链接:https://multi-swe-bench.github.io
代码链接:https://github.com/ multi-swe-bench / multi-swe-bench
数据链接:https://huggingface.co/ datasets / ByteDance-Seed / Multi-SWE-bench
相关推荐
今(14)日,随着英语学科考试结束的铃声响起,重庆市2025年初中学业水平暨高中招生考试落下帷幕。今年英语的命题思路是什么?试题有什么特点?考试结束后,市教委组织命题专家和一线名师对此进行了解读。沙坪坝区教师进修学院英语研修员冯丽命题专家:强调语用、表达,推动从“解题”到“解决问题”的质变命题专家表
2025-06-14 12:42:00 0
6月10日,河北雄安新区举办2025人工智能产业生态创新发展活动。活动现场,雄安新区与清华大学联合设立的人工智能研究院揭牌成立,雄安人工智能产业园宣布正式开园运行。城市人工智能公共服务平台、8项大模型赋能雄安新区城市高水平管理应用成果、20项雄安新区大模型自主创新企业成果对外发布,50余家人工智能企
2025-06-12 11:41:00 0
6月9日,近日,微软将开始根据安全性能对AI模型进行排名。微软可信赖AI部门负责人莎拉·伯德表示,微软将很快在其“模型排行榜”中添加“安全”类别。微软目前对AI进行排名的指标有三个:质量、成本和模型生成输出的速度。伯德表示,新的安全排名将确保用户在决定购买哪种AI模型服务时“能够直接购买并了解”其性
2025-06-09 14:35:00 0
近日,受益于基本面利好以及流动性宽松等因素,中小盘股表现抢眼,多只主题基金的净值亦显著跟涨。在净值走强之际,资金的涌入也使得承载力有限的相关基金不得不“闭门谢客”,乃至被动降低仓位。值得一提的是,证监会近期印发的《推动公募基金高质量发展行动方案》(下称《行动方案》)着重强化了业绩比较基准对于公募产品
2025-06-09 06:43:00 0
以ChatGPT为代表的语言类大模型重塑内容生成方式时,多模态模型还在等待它的“iPhone时刻”。近日召开的2025智源大会上,智源研究院(以下简称“智源”)正式发布了包括原生多模态世界模型Emu3等“悟界”大模型系列,Emu3实现了文本、图像、视频的任何组合理解与生成,通过单一模型就可以捕捉世界
2025-06-09 00:09:00 0