磨削技术

创造AI的原数据的安全

发布时间:2023/9/16
  生成式人工智能的繁荣正在助长一场“数据的影子战争”。
  随着内容创建者意识到他们的数据被用来与他们竞争,强烈的反对正在酝酿之中。
  生成式人工智能热潮始于2022年底ChatGPT的惊人成功。现在,似乎每家公司都在尝试使用该技术。
  该技术背后的人工智能模型是使用来自数百万个不同来源的高质量数据集构建的。用行业术语来说,这些是模型“训练”的原材料。
     
  Github前首席执行官纳特·弗里德曼 (Nat Friedman) 在最近接受科技分析师本·汤普森 (Ben Thompson) 采访时表示:“这是正在发生的事情表面之下的秘密故事。”
  Nvidia GPU是AI模型训练所需的主要硬件。
  “但另一个关键输入是数据,”弗里德曼说。“因此,目前在表面之下正在发生一场关于数据的影子战争,最大的人工智能实验室正在花费巨额资金来获取更有价值的代币,要么花钱请专家生成代币,要么通过标签公司工作”。
  许多训练数据都是从互联网上抓取并未经许可使用的。
  渴望更多培训数据的科技公司也授予自己新的权限,以使用更多的信息。
  从互联网上抓取的信息的使用引发了关于这个新人工智能世界中版权和许可的未来的争论。
  基于免费信息共享的在线社区也正在被颠覆。当这些数据可能会被纳入人工智能模型并最终与你竞争时,为什么还要继续在线共享呢?
  来自热门编码问答网站Stack Overflow的数据已用于AI模型训练。最近几个月,随着人工智能模型直接提供编码答案,无需访问网站并提出问题,流量出现下降。
  公司、内容创作者和其他网络企业逐渐意识到他们的作品正在被秘密利用来对付他们。
  这破坏了网络的大交易,并引发了强烈反对。
  Salesforce首席执行官兼《时代》杂志所有者马克·贝尼奥夫(Marc Benioff)表示:“媒体公司开始觉醒,意识到他们的很多信息都被盗了——可能你的一些信息也被盗了。”
  “作为媒体所有者,这是一个主要问题,因为我确实会去看模特,我会在那里找到《时代》杂志的材料,然后说,‘等一下,那是我的内容,’”他补充道。
  越来越多的网站正在屏蔽网络爬虫,这些爬虫是用于在网络上搜寻数据以进行人工智能模型训练的技术工具。据Insider8月份报道,来自ChatGPT创建者OpenAI的GPTbot在短短两周内就被100个最受欢迎网站中超过15% 的网站屏蔽,其中包括亚马逊和Quora。
  Reddit要求为其数据付费,这些数据是人工智能模型训练的常见来源。
  领先的法律信息提供商LexisNexis不得不警告客户不要上传或与人工智能模型和相关机器人共享其数据。
  Sarah Silverman 起诉OpenAI和Meta,声称他们在没有补偿或未经许可的情况下使用她的书来训练他们的人工智能模型。
  包括玛格丽特·阿特伍德(Margaret Atwood)和詹姆斯·帕特森(James Patterson)在内的8000多名作者签署了一封公开信,要求人工智能公司赔偿,因为他们未经许可使用他们的作品来训练人工智能。
  人工智能公司正在做出回应,主要是试图降低法律风险。
  Meta 和其他科技公司已停止披露他们用于训练人工智能模型的训练数据。这部分是出于竞争原因,但观察人士表示,这也是为了避免法律风险。
  根据8月份发布的研究显示,OpenAI 的ChatGPT试图隐瞒自己接受过受版权保护的材料(例如 JK 罗琳的哈利波特系列丛书)的训练。
  其他研究人员开发了一种人工智能模型,可以删除数据以降低法律风险。在此过程中,他们还创建了一种方法来衡量特定数据对人工智能模型输出的贡献。
产品展示
联系我们
公司地址:南通市通州区通扬南路588号
联系电话:0513-87119922
联系人:李先生
手机:15606292777
邮箱:sales@nt2mt.com
网址:http://www.pingmianmochuang.com
平面磨床  立轴圆台平面磨床  卷板机  液压机  混合器  真空吸盘  精密锻件  防爆电器  液压折弯机  混合器  防爆正压柜  静态混合器  取样器  粉末冶金齿轮  浊度仪  减速机厂家  齿轮减速马达  自助终端机定制  油研柱塞泵  油雾收集器  SKF轴承
2012 - 2018 南通第二机床有限公司  商道企业网站营销自助管理系统  网站管理  苏ICP备09004781号