×

Loading...

Sora横空出世震惊全网 马斯克惊叹 网友:要失业了

https://info.51.ca/articles/1286971?wyacs=info-article-list

2月16日,OpenAI宣布推出全新的生成式人工智能模型“Sora”,引发了广泛关注。

媒体2月17日报道,市场预计,在最新一轮由风投公司Thrive Capital牵头融资中,OpenAI的估值有望超过800亿美元;而去年年初ChatGPT刚发布不久后,OpenAI的估值大约为290亿美元。

Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。”

Sora横空出世,马斯克惊叹,网友:工作要丢了

2月16日凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。

目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

例如一个Prompt(大语言模型中的提示词)的描述是:在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

在Sora生成的视频里,女士身着黑色皮衣、红色裙子在霓虹街头行走,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。

电影预告片讲述了30岁宇航员戴着红色羊毛针织摩托车头盔的冒险经历,蓝天、盐漠,电影风格,35毫米胶片拍摄,色彩鲜艳。

AI想象中的龙年春节,红旗招展人山人海。有紧跟舞龙队伍抬头好奇观望的儿童,还有不少人掏出手机边跟边拍,海量人物角色各有各的行为。

竖屏超近景视角下,这只蜥蜴细节拉满:

网友直呼game over,工作要丢了:

甚至有人已经开始“悼念”一整个行业:

媒体报道,就连与OpenAI分道扬镳的早期创始人、特斯拉CEO马斯克也为此惊叹。他在社交媒体上转发网友的帖子时评论称:“gg humans”。gg为网络用语good games的缩写,常常用于表达输家输得心服口服的感叹。

周鸿祎:意味着AGI实现将从10年缩短到1年

2月16日,360创始人周鸿祎发布微博提到自己对Sora的看法,周鸿祎认为,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。

谈到Sora最大的优势,周鸿祎表示,以往文生视频软件都是在2D平面上对图形元素进行操作,可以把视频看成是多个真实图片的组合,并没有真正掌握这个世界的知识。但Sora产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况,“这次OpenAI利用它的大语言模型优势,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。”

周鸿祎提到,有了大模型技术作为基础,再加上人类知识的引导,可以创造各个领域的超级工具,例如在生物医学、蛋白质、基因研究,包括物理、化学、数学的学科研究上,大模型都会发挥作用。

“一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和TikTok的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,这就离AGI真的就不远了,不是10年20年的问题,可能一两年很快就可以实现。”周鸿祎感慨。

他还提到,尽管国内大模型发展水平表面看已经接近GPT-3.5,但实际上跟4.0比还有一年半的差距。OpenAl手里应该还有一些秘密武器,无论是GPT-5,还是机器自我学习自动产生内容,“奥特曼(OpenAI CEO)是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。”

周鸿祎认为,科技竞争最终比拼的是让人才密度和深厚积累,“很多人说Sora的效果吊打Pika和Runway。这很正常,和创业者团队比,OpenAl这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。”

Report

Replies, comments and Discussions:

  • 工作学习 / 科技自然 / Sora横空出世震惊全网 马斯克惊叹 网友:要失业了 +1

    https://info.51.ca/articles/1286971?wyacs=info-article-list

    2月16日,OpenAI宣布推出全新的生成式人工智能模型“Sora”,引发了广泛关注。

    媒体2月17日报道,市场预计,在最新一轮由风投公司Thrive Capital牵头融资中,OpenAI的估值有望超过800亿美元;而去年年初ChatGPT刚发布不久后,OpenAI的估值大约为290亿美元。

    Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。”

    Sora横空出世,马斯克惊叹,网友:工作要丢了

    2月16日凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。

    目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

    例如一个Prompt(大语言模型中的提示词)的描述是:在东京街头,一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

    在Sora生成的视频里,女士身着黑色皮衣、红色裙子在霓虹街头行走,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。

    电影预告片讲述了30岁宇航员戴着红色羊毛针织摩托车头盔的冒险经历,蓝天、盐漠,电影风格,35毫米胶片拍摄,色彩鲜艳。

    AI想象中的龙年春节,红旗招展人山人海。有紧跟舞龙队伍抬头好奇观望的儿童,还有不少人掏出手机边跟边拍,海量人物角色各有各的行为。

    竖屏超近景视角下,这只蜥蜴细节拉满:

    网友直呼game over,工作要丢了:

    甚至有人已经开始“悼念”一整个行业:

    媒体报道,就连与OpenAI分道扬镳的早期创始人、特斯拉CEO马斯克也为此惊叹。他在社交媒体上转发网友的帖子时评论称:“gg humans”。gg为网络用语good games的缩写,常常用于表达输家输得心服口服的感叹。

    周鸿祎:意味着AGI实现将从10年缩短到1年

    2月16日,360创始人周鸿祎发布微博提到自己对Sora的看法,周鸿祎认为,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。

    谈到Sora最大的优势,周鸿祎表示,以往文生视频软件都是在2D平面上对图形元素进行操作,可以把视频看成是多个真实图片的组合,并没有真正掌握这个世界的知识。但Sora产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况,“这次OpenAI利用它的大语言模型优势,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。”

    周鸿祎提到,有了大模型技术作为基础,再加上人类知识的引导,可以创造各个领域的超级工具,例如在生物医学、蛋白质、基因研究,包括物理、化学、数学的学科研究上,大模型都会发挥作用。

    “一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和TikTok的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,这就离AGI真的就不远了,不是10年20年的问题,可能一两年很快就可以实现。”周鸿祎感慨。

    他还提到,尽管国内大模型发展水平表面看已经接近GPT-3.5,但实际上跟4.0比还有一年半的差距。OpenAl手里应该还有一些秘密武器,无论是GPT-5,还是机器自我学习自动产生内容,“奥特曼(OpenAI CEO)是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的AI差距可能还在加大。”

    周鸿祎认为,科技竞争最终比拼的是让人才密度和深厚积累,“很多人说Sora的效果吊打Pika和Runway。这很正常,和创业者团队比,OpenAl这种有核心技术的公司实力还是非常强劲的。有人认为有了AI以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。”

    • 现在变化太快,未来20年变化只会更快
    • 水管工,厨师不怕。
      • 国内现在已经有AI食堂了
      • 德国早推出家庭炒菜机了
        • 德国只有炖菜没有炒菜吧?
          • 他们发明的炒菜机八成不是给自己用的
    • openAI工具箱里宝物很多,sora只是冰山的一角,当然他那些视频都是精心挑选的,临时拿出来狙击谷歌的Gemini1.5, 谷歌早宣布这要在2月15号发布。Gemini1.5 有几个看点 1.超长token,现在可以达到100万,内部测试1000万,gpt 4 token 极限128k。

      超长token意味着Gemini1.5可以一次性吃进去一本书,写出书评。同时,因为它从一开始就是多模态的(文本音频视频,他也可以一次性吃进去一部电影,写出影评.

      2.超强的上下文理解能力。这次gemini1.5 展示了超强的对新语言的学习能力。

      Gemini 1.5演示了对卡拉曼语的翻译。卡拉曼语是一种在印度尼西亚巴布亚东部新几内亚西部地区不到200名讲者使用的语言。卡拉曼语资料在网上几乎没有。谷歌写了《从一本书开始的机器翻译》(MTOB:https://arxiv.org/abs/2309.16575)是一个评估学习系统,学习仅通过一本书(500页,25万toen)翻译卡拉曼语的能力的基准。
      Gemini 1.5 Pro可以学会从英语翻译成卡拉曼语/从卡拉曼语翻译成英语。没有上下文中的卡拉曼语材料,1.5 Pro模型产生的翻译几乎是随机的。然而,有了上下文中的材料,Gemini Pro 1.5能够利用关于卡拉曼语的上下文学习,其翻译质量与从相同材料学习的人的翻译质量相当。

      Gemini 1.5 展现的能力让人惊叹,但鸡贼的奥特曼抢去了风头,很多人为谷歌叫冤屈,而且Sora 的主要负责人william pebbles 正是从谷歌 deepmind 跳去了OpenAI

      除了Gemini 1.5, 叫屈的还有Meta AI大神杨立昆, 他在同一天发表了基于世界模型的 V-JEPA。杨立昆一直对大语言模型不大看好,不认为从此可以发展出通用型人工智能,大语言模型说到底是一个统计预测模型,没有真正的智能。他试图另走一条路,希望开发出能理解世界运作的世界模型.

    • 还有很多石破天惊的黑科技在实验中,时机成熟时会推出来