AG体育AIGC 2月刊 一文总结3个趋势、10大热点、5个创作工具
发布时间:2024-03-05 22:28:33

  AG体育2月16日,OpenAI推出首款文生视频大模型Sora(官网:),可以根据提示词生成长达1分钟的视频,包括高度细腻的场景、复杂的摄像机动作和多个情感丰富的角色。此外,该模型也支持生成图像,支持将现有静止图像生成视频,能对现有视频进行扩展、将两个视频衔接并填充缺失的帧。

  Sora建立在对DALL·E和GPT模型的研究之上,OpenAI表示“Sora是能理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现AGI的重要里程碑”。

  目前Sora仍未向公众开放,OpenAI称正在与红队人员合作,对模型进行对抗性测试。同时,OpenAI开通了社交平台TikTok官方账号,专门发布由Sora生成的视频,在5天内涨粉超10万,目前获赞超120万,粉丝数达20.8万。

  “头号AI玩家”梳理了所有已发布的Sora测试案例,并和9位业内一线玩家探讨了Sora对内容行业、尤其是视频领域带来的影响,以及AIGC冲击下,谁会被淘汰,未来内容从业者又需要具备什么样的核心竞争力。

  相关阅读:《爆火的Sora会改变内容行业的游戏规则吗?9位一线从业者这么说》《Sora官方测试案例大全!最新AI视频提示词都在这了(附文档)》

  过去一个月,OpenAI、微软、谷歌、英伟达、苹果、Meta、亚马逊等头号AI玩家们都发布了有关AI大模型、芯片或产品的消息,比如苹果放弃了造车业务,近2000人团队大部分将转向生成式AI研发。

  来自海外科技公司的激烈竞争,迫使国内公司加快追赶大模型进展。我们看到互联网大厂接连推出多款AIGC新应用,比如百度的文心一言上线数字分身功能,阿里巴巴的通义千问上线AI生成全家福和拜年视频功能。

  其中,字节跳动被曝正在加大投入对AI产品的研发,成果相继落地,包括抖音电商、巨量引擎等业务部门,其中动作最大的Flow部门除了上线豆包、扣子等AI产品外,还将推出AI角色互动App“话炉”,以及一款或为图片方面的AI产品“PicPic”。原抖音集团CEO张楠也宣布辞任,重心转向剪映。

  此外,还有多家AI创企和机构推出了基于生成式AI技术的产品,AIGC行业正在加速产品化和商业化。

  2月1日,公安部网安局通报了一起利用AI发表造谣文章赚取佣金案件。网民王某托某款手机软件的AI题词功能写文章,在系统中输入带有“杀人、失踪”等敏感字眼的提示词,附以时间地点,就能自动生成博取眼球的文章,结果被大量网民点赞、留言、转发,严重干扰社会秩序。目前,齐齐哈尔公安机关对王某处以罚款,同时责令删除相关谣言。

  在海外,AI生成的知名歌手Taylor Swift(泰勒・斯威夫特)的不雅照引起争议,OpenAI随后宣布将在DALL-E 3生成图像元数据中添加C2PA(内容来源和真实性联盟)的水印,用户可凭此查询图像来源。Meta也宣布在旗下社交平台Facebook、Instagram和Threads等标注AI生成的图像。

  2月2日消息,字节跳动上线了“Coze(扣子)”AI Bot创建平台,用户能够快速创建和优化专属AI Bot。Coze支持用户添加插件或上传数据库,提供了必应搜索、文生图ByteArtist、效率办公等各类插件。整个操作流程,和创建GPTs以及Poe机器人无异,此前“头号AI玩家”发布过完整创建流程。

  创建完成后,用户可以将AI Bot发布到飞书、豆包、微信公众号(服务号)等,Coze还上线. AI创业公司月之暗面融资8亿美元

  据了解,月之暗面已在秘密研发通用多模态模型,预计今年内将推出。目前,月之暗面已经完成千亿参数规模的自研通用大模型,面向消费者的“kimi智能助手”。

  继推出Gemini 1.0 Ultra后,2月15日,谷歌发布了新一代多模态大模型Gemini 1.5,其性能在多个维度上有显着改进,并且1.5 Pro实现了与1.0 Ultra相当的质量,同时使用更少的计算。该模型在长上下文理解方面取得突破,能持续运行多达100万个tokens,实现迄今任何大型基础模型中最长的上下文窗口。

  2月22日,谷歌推出全新的开源模型系列Gemma,其采用了与创建Gemini模型相同的研究和技术,但更加轻量级,同时保持免费可用,模型权重也一并开源了,且允许商用。据介绍,Gemma在关键基准测试上超过Meta Llama2和最强混合架构开源模型Mistral,而且能直接在开发者的笔记本电脑或台式电脑上运行。

  Sora爆红后,AI课程因疑似“割韭菜”争议再度登上风口浪尖,头部博主李一舟陷入了退款风波,一批AI课程导师也因此成为话题焦点。李一舟的“每个人的人工智能课”售价199元,主要在抖音直播间售卖,新榜旗下抖音数据工具新抖显示,近一年来,该课程预估销量近25万份,其直播累计预估销售额近5000万。

  相关阅读:《2倍速怒刷李一舟199元AI课,AI圈的“韭菜”这么好割?》

  2月22日,Stability AI推出Stable Diffusion 3早期预览版,并表示这是他们迄今为止最强大的文本生成图像模型,在多主题提示、图像质量和文本渲染能力方面均有显著提升。Stable Diffusion 3和Sora一样采用了diffusion transformer架构,似乎由此获得了和Sora一样“理解和模拟物理现实”的能力。目前Stable Diffusion 3尚未全面开放,可申请加入候补名单。

  相关阅读:《与Sora同架构!Stable Diffusion 3文生图模型惊艳亮相,对比实测来了》

  2月23日,其中一位博主“曾bobi”对此发布视频道歉,称自己的确在创作中使用了AI,没有如实标明,让大家误以为是手绘的,并解释了如何借助AI创作这幅画的过程。虽然他强调过往作品是个人独立完成的,但仍被质疑使用了AI生成,网友将他们称为艺术圈“AI三杰”。

  相关阅读:《看似达芬奇转世、实则“AI附体”,“AI三杰”带给创作者哪些启示?》

  2月27日,法国生成式AI独角兽Mistral AI发布全新旗舰模型Mistral Large。据介绍,Mistral Large是先进的文本生成模型,逻辑推理能力出色,能处理包括文本理解、转换以及代码生成在内的复杂多语言任务。在衡量多语言理解任务基准MMLU上,Mistral Large的表现仅次于GPT-4。

  该模型上下文窗口为32K tokens;擅长英语、法语、西班牙语、德语和意大利语;原生支持函数调用。此外,微软官方宣布与Mistral AI建立长期合作伙伴关系。目前,Mistral Large可在微软Azure AI和Mistral AI 平台上使用,也可以通过类似于ChatGPT的网站le Chat进行测试。

  而对于从未接触过3D建模的普通玩家,Luma AI除了能丝滑生成可供拖拽“把玩”的赛博手办,还支持3D重建现实中的场景和物体,成了Ins网红、甚至明星MV酷炫镜头生成的绝佳利器。

  近期使用Luma AI打造的3D重建视频在Ins上最受欢迎的是航拍镜头,最高的一支视频播放量超430万,收获点赞破31万。

  总体来说,Imagen2更适合生成真实感的图片,比如人物肖像,而DALL·E 3生成的结果更接近用户的提示词。

  2月21日,Stability AI旗下的视频生成产品Stable Video开放公测,产品基于Stable Video Diffusion 1.1架构打造,支持文生视频和图生视频功能。据“头号AI玩家”实测AG体育,目前Stable Video对于静态物体、风景等效果不错,但一旦遇上人脸,就有可能出现失败的情况。

  近日,Stability AI推出了一个基于AI的图片生成器CreativeUpscaler,该模型整合了多种前沿的机器学习算法,如Stable Diffusion、DALL-E2、VQGAN+CLIP等,支持生成各种风格的图像。用户只需要提供文字描述,CreativeUpscaler就可以自动生成图片。同时,它还有图像上样器功能,可以将上传图像的分辨率升级到4K,并强化一些原本没有的新细节。

  比如在小红书搜索红包封面,能看到不少销量在100以上的商品。有的静态图红包封面售价4.9元,已卖出1132份,销售额超5000元。

  还有更复杂的动态红包封面售价6.8元,目前已售8928份,销售额超6万元。

  我们可以借助AI文生图/图生图功能来快速制作红包封面,免费的AI绘图工具包括微软Copilot、Stable Diffusion、文心一格、腾讯混元等,专业玩家可以直接上手付费的Midjourney。

  据“头号AI玩家”观察,目前小红书、淘宝上的红包封面价格以2~8元/张为主,主题多是龙年春节,霸气金龙、可爱萌龙、龙年暴富等风格较受欢迎。

  相关阅读:《教你用AI制作微信红包封面,分分钟躺赚千元(附红包封面)》《今年爆火的“电子年货”,我们用AI帮你们备齐了》

  这是春节前走红的拜年模拟器“决战拜年之巅”,玩法和文字聊天小游戏差不多,你要在“相亲相爱一家人”群聊中依次面对七大姑、八大姨、六大婶、五大叔、二大爷等众多亲戚的灵魂拷问,每个人都有针对性的话题如工作、恋爱。

  你的回答会影响亲戚的情绪值,鸡同鸭讲也会让他们放弃和你聊天。和所有亲戚们聊完后,最后你还要面对大BOSS妈妈。对话结束后,系统会根据情绪值等因素生成不同的成就。回答完美的“大孝子”有机会被纳入族谱哦!

  “决战拜年之巅”出自ChatMindAI团队,由国产大模型GLM(智谱AI)提供支持。目前原网站已下架,感兴趣的玩家可以登录智谱清言体验

  2月9日,短片创作者“海辛”和“Simon阿文”复盘讲解了这个AI舞蹈的详细制作过程。在这个项目中,他们用到了ControlNet、LCM、AnimateDiff等技术,将真人双人舞转绘成陶瓷质感的舞蹈。关于保持角色一致性的方法,他们提到,相比单人转绘后期合成,直接引入ControlNet tile模型,能够更快速便捷地固定住双人角色特征。

  另外,稳定扩散模型搭载IPAdapter插件,可以大大降低AI绘画生成的随机性。用一张图就可以引导AI生成指定材质的效果,比如陶瓷、青花瓷、翡翠质感等等。

  她的角色设定依旧是模特,背后的创作者靠发“假图”,妥妥实现了“躺着赚钱”。据背后的创作团队Foxy AI称,Lexi每个月都能收到超20名用户的求婚、约会邀请,平均每月赚取3万美元(折合约人民币20余万元)。

  受到西班牙AI模特Aitana成功赚取流量的启发,X平台博主“Emm”用Aitana上传的12张个人形象图,训练了一个LoRA模型。他认为,2024年将是AI虚拟博主之年,完全由AI生成的角色将不再是一个概念,而是可以参与商业,直接赚钱。

  结合“Emm”的创作经验,“头号AI玩家”也进行了一番实测。AI虚拟博主的打造,关键是保证面部、身材等人物的一致性,而训练LoRA模型能够较大程度降低生成的随机性。

  最近在商汤2024年年会上,已经去世的商汤创始人汤晓鸥的数字人现身表演脱口秀。据了解,通过商汤如影数字人技术,仅需要5分钟真人视频素材,就可以生成动作声音自然、口型准确、多语种精通的数字人分身。

  以AI音频工具ElevenLabs为例,只要上传1分钟的声音素材,就能够把任意一段音频,快速生成为中文、葡萄牙语、日语等在内的29种语言,还保留声源的音色特征和情感色彩。

  “头号AI玩家”体验下来,对于很多创作者来说,如果是进行剧情重制、制作游戏二创视频,或是代替个人原声进行解说,目前AI工具中的音色克隆功能其实完全够用。比如抖音旗下的视频剪辑工具剪映内置了“声音克隆”的AI功能,方便视频创作者一键实现文本到语音的转换。

  还有一些专业向的声音工具,比如大饼AI、出门问问旗下的魔音工坊等,都支持一键改变创作者的音色,让音视频的创作有了延展发挥的空间。

  从最早AI音频生成技术让AI孙燕姿唱歌、让郭德纲讲英文相声,到现在AI复刻博主音色、“复活”逝者的ToC产品,AI音频的可玩性正在不断扩大。在大语言模型的加持下,我们离打造个人“数字生命”又近了一步。