EleutherAI 版

EleutherAI 版Minetest 的对齐环境:探索阶段大纲

EleutherAI 版功能演示视频 我的世界:ai自动玩mc,完全超越了人类5000年_单机游戏热门视频

项目是什么?

该项目的目标是提供一个丰富且易于修改的环境,对齐研究人员可以使用它来测试对齐和对齐技术的许多方面。根据可行性/兴趣/等,从那里有一些潜在的方向。
-更专业的挑战环境,解决对齐中的特定问题 -
可用于训练/微调模型的数据集和基础模型 -
人类可以与代理交互的实时服务器 -
为代理开发对齐技术的更复杂的项目

这个项目背后的动机是什么?

这个项目的动机是跟随AI 安全网格世界MineRL BASALTMineDojo等项目的脚步,然后在它们之上构建。虽然目前的对齐研究主要是理论性的,但我们希望能够在一个既能完成复杂任务又能轻松扩展以测试任何特定情况的环境中“让橡胶碰到路” . Minetest 似乎非常适合这个。

为什么我们可能想要这个的具体例子是:

-当前的可解释性研究大多不是那么“扎根”,而是处理“完全可观察”的情况,例如图像分类和文本生成。不存在不是由 NN 直接输入/输出的潜在因素,但我们希望能够在真实系统中检测/解释这些因素。

  • 目前采用的主要“对齐策略”假定 AI 与任务/环境/人类之间存在硬边界。我们无法使用 minetest 环境对此进行全面测试,但我们可以更接近,因此验证我们的系统没有类似于奖励黑客的故障模式。
    -现有的基于 minecraft 的 rl 环境都不是“实时的”,因此很难研究人机与它们的交互,这可能会成为未来对齐研究的一个重要方面。

谁是项目的一部分?

该项目的主要联系人将是@AI_WAIFU,@jdp作为次要联系人。也有兴趣来自@ac@火热胜利之星@harfe和@triggerhappygandi
你需要一个单独的讨论渠道吗?
是的,它应该被称为“#alignment-minetest”。

你需要计算吗?

可能不会。该项目应该主要是常规软件开发,并且 minetest 在土豆上运行,因此探索阶段可能不需要计算。稍后我们可能需要一些来训练 RL 代理或运行服务器或多个并发实例。

该项目探索阶段的可交付成果是什么?

-一份关于 minetest 代码库的报告,它是如何工作的,以及如何修改它。(这可能只是指向现有文档的链接)-
我们可以用来研究对齐的不同方面的候选“AI 对齐测试设置”
-发布完整环境的设计和路线图 -
我们想在环境之上做的任何额外工作的设计和路线图 -
使用包含上述内容的新 EAI 项目提案模板的完整项目提案 -一个
类似 oai-gym 的环境原型可以启动健身房客户端,接收假键盘/鼠标输入,并从 minetest 游戏返回帧。

探索阶段的大致时间表是什么?

-目标是探索阶段大约需要 2-3 个月,在 2022 年 12 月的某个时候结束。