新葡萄8883官网AMG

目今位置: 首页 > 体育 > 电竞

腾讯研发全新TiG框架:可用AI玩王者荣耀让AI模子学会战略性思索

2025-10-05 03:12:40
泉源:
电竞资讯10月4日称 据 decoder 今天报道,腾讯研究职员最近用《王者荣耀》游戏作为训练平台,探索怎样让AI在游戏中学会“战略性思索”,研究全新 TiG(Think in Games)框架,相关效果已揭晓于 Hugging Face 平台和 arXiv 期刊。新葡萄(8883·AMG)官方网站

研究团队指出,现在的 AI 模子保存显着的功效鸿沟,以游戏为取向的 AI 能正常嬉戏但无法明确自己所做的决议,而语言模子虽然可以推理战略,但很难真正执行操作,为此他们研发了全新 TiG 框架,让模子在游戏中同步思索、行动。

undefined

团队选择以《王者荣耀》游戏作为训练范本,先使用匿名且标准化的赛事数据界说推上路、击杀暴君、守家等 40 种宏观行动,输赢回数平衡,AI 模子们必需要在每个界说好的场景下选择最佳战略,并诠释其战略缘由。

undefined

详细来说,训练分为两个阶段,首先是在监视中学习,弄清晰这些战略的基本机制;随后通过奖励机制举行强化学习,若是行动准确能得 1 分,过失行动则得 0 分。

undefined

随后团队测试了多种语言模子,涵盖 Qwen2.5(7B、14B、32B)、Qwen3-14B 模子,并使用 DeepSeek-R1 大模子作为比照组;先从 DeepSeek-R1 提炼高质量训练数据,然后使用群体相对战略优化(GRPO)手艺,较量差别战略之间的优劣。

undefined

最终经由 TiG 框架训练的模子不但能制订行动妄想,还能诠释缘故原由,例如 AI 会指出某个防御塔防守薄弱,是理想的进攻目的,但需要注重匿伏的仇人。模子训练后仍坚持原有的文本明确、数学推理与问答能力。

undefined

最终测试效果如下:

  • 比照组 DeepSeek-R1:决议准确率达 86.67%

  • Qwen3-14B:决议准确率达 90.91%,逾越 DeepSeek-R1
  • Qwen2.5-32B :准确率从 66.67% 提升至 86.84%
  • Qwen2.5-14B:准确率从 53.25% 提升至 83.12%
  • 最新资讯
    最新录像
    最新集锦
    热词推荐
    【网站地图】【sitemap】