提升大模型自动修Bug能力豆包正式开源首个多语言类SWE数据集

admin • 1天前 • 互联网

快科技4月10日消息，今日，字节跳动豆包大模型团队宣布，正式开源首个多语言类SWE数据集——Multi-SWE-bench，可用于评估和提升大模型“自动修 Bug”能力。

在SWE-bench基础上，Multi-SWE-bench首次覆盖Python之外的7种主流编程语言（Java、Go、Rust、C、C++、TypeScript、JavaScript），是真正面向“全栈工程”的评测基准。

Multi-SWE-bench包含1632个实例，均来自GitHub issue，并经过统一的测试标准和专业开发者的审核筛选，确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。

豆包大模型团队希望，Multi-SWE-bench能作为大模型在多种主流编程语言与真实代码环境中的系统性评测基准，推动自动编程能力向更实用、更工程化的方向发展。

团队表示，相比于以往聚焦Python的单语言任务，Multi-SWE-bench更贴近现实中的多语言开发场景，也更能反映当前模型在“自动化软件工程”方向上的实际能力边界。

原创文章，作者：admin，如若转载，请注明出处：https://www.kandianxun.com/internet/7350.html

赞 (0)

0

1100匹只卖27.98万是我瞎了还是比亚迪疯了

上一篇 1天前

9.98万起零跑全新纯电SUV B10上市：起步就是510公里续航

下一篇 1天前

互联网

网易云音乐紧急提醒鸿蒙用户：平替版App千万别下疑藏木马病毒

快科技4月8日消息，日前，“网易云音乐小客服”官方小红书账号发布提醒：鸿蒙系统能用的网易云音乐平替版千万别下。网易云音乐小客服称：“据可靠线报，这软件不仅偷偷调用接口还疑似藏了…

4天前
互联网

运气爆棚！湖南一男子花4元买彩票中了1242万元：购彩需要理性

4月3日消息，近日，湖南邵阳县一彩民，以一张4元双色球彩票喜中双色球一等奖，2注共计1242万元。3月31日下午，有关单位为该投注站业主颁发奖牌。不少周边居民闻讯赶来沾喜气。面对…

2025年4月3日
互联网

刘畊宏直播跳操被强制关播抖音回应：着装不当、提示过3次

快科技4月3日消息，日前刘畊宏COS海王直播跳操，结果被抖音强制下播，随后他发布微博表示，跳得正嗨突然黑屏，理由是丝袜破洞、穿着诱惑。刘畊宏声称，自己的直播间一直传播健康的正能量…

2025年4月3日
力求在AI领域率先突破，谷歌创始人呼吁员工每周工作60小时

【TechWeb】据外媒报道，谷歌联合创始人谢尔盖·布林（Sergey Brin）近日向员工发布了一封内部信件，他在信中鼓励员工增加工作量，提出每周工作60小时的目标，以期在通用人…

互联网 2025年3月3日
互联网

谷歌发钱让部分AI员工一年内什么都不用做！但不能加入竞争对手

快科技4月8日消息，随着人工智能领域的竞争日益激烈，谷歌旗下的人工智能部门DeepMind采取了一种“激进”的竞业禁止协议，以防止顶尖人才流向竞争对手。据报道，DeepMind对…

3天前
互联网

一刀未剪《倩女幽魂》4K修复版预售：张国荣、王祖贤时隔38年“重回”银幕

快科技3月13日消息，今日，电影《倩女幽魂》（87版）4K修复版开启预售，影片将于3月21日上映。影片由程小东执导，徐克监制，张国荣、王祖贤、午马领衔主演，刘兆铭、林威主演。宁…

2025年3月13日
互联网

《刺客信条：影》Steam在线峰值超6.4万！超越奥德赛成系列第一

快科技3月24日消息，根据SteamDB的数据，《刺客信条：影》在Steam平台的在线峰值达到了64825人。这一数字超过了2018年《刺客信条：奥德赛》的62069人，成为《刺…

2025年3月24日
互联网

哪吒2授权费从500万飙升至900万:版权方凭授权收入已过亿

快科技3月22日消息，近日，国产动画电影《哪吒之魔童闹海》不仅在票房上取得了显著成就，跻身全球电影票房榜第五名，其IP授权价值也实现了飞跃，从500万元跃升至900万元。目前，已…

2025年3月22日
互联网

《黑神话》杨奇和刘亦菲合影！神仙姐姐要出演DLC吗

国产游戏大作《黑神话：悟空》的主美术师杨奇近日在社交平台小红书上发布了一张与著名影星刘亦菲的合影，引发了众多游戏玩家和粉丝的关注与热议。杨奇本人在这篇帖子上配文：“偶尔。。也追星…

2025年4月2日
互联网

抢占太空资源：美国宣布研发太空航空母舰

快科技3月28日消息，为了抢占更多的太空资源，同时也是为了自身的影响力，美国宣布研发太空航空母舰。据国外媒体报道称，美国太空部队签订了一份价值高达6000万美元的合同（约合4.4…

2025年3月28日

发表回复