四个00后的疯狂开源计划：整个互联网转成大模型语料，1亿token嵌入成本只需1美元当前消息

2023-06-06 10:59:16 来源：量子位公众号

Arxiv上所有论文转成Token，加起来不过14.1GB而已。

(资料图片)

这是最新爆火开源计划亚历山大完成的壮举。

事实上，这还只是第一步。

他们最终是想要将整个互联网变成Tokens，换言之全都转化成ChatGPT等大模型理解这个世界的方式。

一旦这样的数据集诞生，那岂不是为开发出GPT-4这样的大模型又新增一大利器，上知天文下知地理指日可待了?!

消息一出，瞬间引发巨大关注。

网友们赞叹，史诗般的。

而这背后仅是四个平均年龄20岁的少年发起，目前Arxiv所有论文数据集已经发布，他们将于下周发布嵌入（Embedding）搜索平台。

从Arxiv上所有论文开始

这个名为亚历山大的开源计划，首先从Arxiv每篇论文上开始。

选择的方式是嵌入，简单来说，就是将现实世界的各种对象具象成计算机所能理解的向量。

最经典的例子就是将原始图像表示为灰度像素。

这种技术最大的特点就是能够表示出人类感知到的语义相似性。

比如，当有10个词表示同一事物时，很难通过关php键词查找论文。但嵌入就可以完成，因此很适用于搜索、聚类、推荐和分类。

基于实用性和效率的考虑android，开发团队只选择嵌入了论文的标题和摘要。

在测试各种模型之后，最终选择使用InstructorXL文本嵌入模型，通过简单地提供任务指令，而无需任何微调，适合于多种任务（比如分类、检索、聚类、文本评估等）和领域(比如科学、金融、医学等)》

下周他们将发布Arxiv搜索。目前为止的流程是，首先对100篇最接近的文章进行相似性搜索，然后即时计算这些内容的嵌入，并进行第二次更复杂的搜索。

最终目标是一整个互联网嵌入计划。

20岁少年的疯狂开源计划

之所以要开展这样一次疯狂的开源计划，主要有两方面的原因。

一方面是嵌入巨大的价值。世界上很多问题只是搜索、聚类、推荐或分类，而这些事情嵌入都非常擅长。而且也如前所述，可以解决一些复杂的难题。

另一方面成本是一次性的且很便宜。大多数情况下无需对同个文件进行二次计算。目前每1亿个Token只需1美元。

但他们并没有找到任何开放的嵌入数据集，因此这样的组织应运而生。

接下来他们还将开放更多的数据集，而这些均由这些用户自行选择。在官网上除了已公开的数据集，剩下的几个待开源项目开启了投票通道。

值得一提的是，背后是一群平均年龄仅为20岁的少年team完成的。

而他们的团队名字同样也很霸气，MACrocosm（宏观世界）联盟。

就官方介绍，他们致力于为ChatGPT和其他类似产品构建插件，同时也在开发核心产品，基于大模型的个人研究助理，帮助学习、教学和科研。

感兴趣的旁友可戳下方链接了解~

https://alex.macrocosm.so/download

参考链接:

[1]https://www.macrocosm.so/

[2]https://twitter.com/willdepue/status/1661javascript781355452325889

[3]https://github.com/macrocosmcorp

[4]https://www.pinecone.io/learn/vector-embeddings/

—完—

标签：

沙场并肩砺兵共赴和平使命

中国参演官兵驾乘装甲输送车向目标地域行进。巴基斯坦参演官兵开展战术演练。蒙古国参演官兵进行警戒巡...

2021-09-18
南部战区陆军某旅开展巡回心理服务

“请大家闭上眼睛，把注意力从头顶‘漫游’到眉头……”8月底，南部战区陆军某旅驻岛某海防连课室内，官...

2021-09-18
《军营理论热点怎么看·2021》走进基层

9月15日上午，解放军新闻传播中心出版社举行赠书活动，向陆军第83集团军某旅“红一连”官兵赠送由中央军...

2021-09-18
王毅会见印度外长苏杰生

新华社杜尚别9月17日电当地时间2021年9月16日，国务委员兼外长王毅在杜尚别应约会见印度外长苏杰生。...

2021-09-18
人民网评：国务院第八次大督查为何屡上“热搜”？

办房本要找“黄牛”、应急管理部门涉嫌搞垄断、行业协会以办理车辆登记上牌备案之名借机收费敛财、中小...

2021-09-18
王毅出席中俄巴伊四国阿富汗问题非正式会议

新华社杜尚别9月16日电当地时间2021年9月16日，国务委员兼外长王毅在杜尚别同俄罗斯外长拉夫罗夫、巴...

2021-09-18
民政部：“十四五”期间将健全基本养老服务体系

人民网北京9月17日电（记者温璐、宋子节）今日，国务院新闻办就扎实做好民政在全面小康中的兜底夯基工...

2021-09-18
第十三届中韩媒体高层对话举办

9月15日，由中国国务院新闻办公室和韩国文化体育观光部指导，中国外文局和21世纪韩中交流协会共同主办的...

2021-09-18
中国美国商会总裁毕艾伦：大多数会员公司在全球战略中会优先考虑中国市场

人民网杭州9月17日电（记者孙博洋）9月16日至17日，中国质量（杭州）大会在浙江杭州举行。在16日举行...

2021-09-18
注意！国庆假期首日火车票今日开售

人民网北京9月17日电（记者王连香）据中国国家铁路集团消息，今日，十一黄金周火车票正式开售，车票预...

2021-09-18
卢铁忠：核能助力“双碳”目标清洁赋能美好未来

9月16日，清华五道口“碳中和经济”论坛召开。中国核电党委书记、董事长卢铁忠作为核能企业代表受邀视频...

2021-09-18
以学术出版助力国际传播

会议现场。人民网讯 9月14日，在第28届北京国际书展开幕之际，由中国社会科学出版社主办的“新形势下学...

2021-09-18

四个00后的疯狂开源计划：整个互联网转成大模型语料，1亿token嵌入成本只需1美元 当前消息

从Arxiv上所有论文开始

20岁少年的疯狂开源计划

为您推荐

新闻快讯

四个00后的疯狂开源计划：整个互联网转成大模型语料，1亿token嵌入成本只需1美元当前消息