主页 > 智能家居 > AI 制作视频真的来了吗?技术上有哪些难点?

AI 制作视频真的来了吗?技术上有哪些难点?

一、AI 制作视频真的来了吗?技术上有哪些难点?

近期,微软亚洲研究院 NUWA 多模态生成模型家族迎来了新成员——NUWA-XL,其以创新的 Diffusion over Diffusion 架构,首次实现了高质量超长视频的并行生成,为多模态大模型提供了新的解题思路。

当前,长视频生成的多数方法是采用“Autoregressive over X”架构,但微软亚洲研究院的研究员们发现了这种方法存在的问题:

首先,在短视频上进行训练再推理出长视频,会导致巨大的训练-推理差距(Train-Inference Gap)。

其次,由于滑动窗口的依赖性限制,模型只能顺序自左向右生成视频,无法并行推理,因此需要花费更长的时间。

——————————————————————————————————————————————————

输入16句简单描述就能生成一段长达11分钟的动画片?

没错!微软亚洲研究院提出的超长视频生成模型 NUWA-XL 可以根据文字自动生成高质量动画作品。让我们先来看一看这段由 NUWA-XL 生成的动画片吧!

https://www.zhihu.com/video/1627632058175479808

早在多年前,微软亚洲研究院就开始了包括图像和视频在内的视觉生成方面的研究,并于2021年推出了多模态生成模型 NUWA。NUWA 可以通过自然语言指令实现文本、图像、视频之间的生成、转换和编辑,为视觉内容创作提供灵感。随后推出的 NUWA 升级版——无限视觉生成模型 NUWA-Infinity,则可以支持更高分辨率的图像和短视频生成任务,让视觉艺术创作趋于“无限流”(还记得那个无限延展的 Windows 桌面吗?)。

随着视频行业需求的增长和技术的发展,近两年人工智能在视频生成方面取得了一定的进展,然而,大多数模型还仅能够生成3到5秒左右的短视频。但在实际应用中,人们所需的视频通常要比5秒长得多,例如,一部电影通常持续在90分钟以上,一集动画片往往也超过20分钟,即使是常见的短视频时长也多在30秒以上。因此,超长视频的快速生成对于人工智能来说仍然是一个巨大的挑战。“视频生成任务和语言、图像的生成类似,但图片是静止的,只包含了空间信息,而视频还需要考虑时间等因素。我们认为视频生成模型是可以对标语言生成模型的,并且拥有更大的应用潜力和更多的应用场景。所以在基于大模型的 AIGC 发展初期,我们就已经将视觉生成列为研究对象(https://arxiv.org/abs/2104.14806),并放在了与文本生成同等重要的位置上。”微软亚洲研究院首席研究员段楠表示。

当前,长视频生成的多数方法是采用“Autoregressive over X”架构,“X”表示任何能够生成短视频片段的生成模型,包括 Phenaki 、TATS 、NUWA-Infinity 使用的自回归模型 (Autoregressive Models),或者 MCVD、FDM、LVDM 使用的扩散模型(Diffusion Models)。这些方法的主要思想是在短视频片段上训练模型,再通过推理,像滑动窗口一样自回归的自左向右生成长视频。

由于在训练时只需要短视频数据,“Autoregressive over X”架构在一定程度上降低了对长视频数据的要求,但微软亚洲研究院的研究员们发现了这种方法存在的问题:

首先,在短视频上进行训练再推理出长视频,会导致巨大的训练-推理差距(Train-Inference Gap)。也就是说,这种方法只知道所生成长视频的开始和结尾的故事信息,视频中间的情节则完全依赖前一段小视频的再推理,这种状态不断叠加之后就会导致不真实的、扭曲的镜头变化。缺乏长视频数据的训练,还会让模型生成的视频存在帧与帧之间不连贯以及故事情节无法逻辑自洽等问题。

其次,由于滑动窗口的依赖性限制,模型只能顺序自左向右生成视频,无法并行推理,因此需要花费更长的时间。例如,TATS 需要7.5分钟才能生成1024帧,而 Phenaki 需要4.1分钟。

全新Diffusion over Diffusion架构,“从粗到细”的生成过程

为了解决这些问题,微软亚洲研究院提出了 NUWA-XL(eXtremely Long),它采用 Diffusion over Diffusion 架构,通过“从粗到细”的生成过程,以相同的粒度并行生成视频,并应用全局扩散模型(Global Diffusion)来生成整个时间范围内的关键帧,然后通过局部扩散模型(Local Diffusion)递归地填充附近帧之间的内容,既提升了生成效率,也确保了视频的质量和连续性。

图1:NUWA-XL 长视频生成流程动态演示

具体而言,如图2所示,NUWA-XL 中的全局扩散模型首先会基于 L 个文本提示生成 L 个视频关键帧,形成视频的“粗略”故事情节。然后将第一个局部扩散模型应用于 L 个提示和相邻的关键帧,将其视为第一帧和最后一帧,以完成中间的 L−2 帧,从而总共产生 L+(L−1)×(L−2)≈L^2 个“精细”帧。通过迭代应用局部扩散来生成中间帧,视频的长度将以指数级增加,进而生成非常长的视频。例如,具有 m 深度和 L 局部扩散长度的 NUWA-XL 能够生成具有 O(L^m) 大小的长视频。

图2:“粗略到精细”——NUWA-XL 超长视频生成概述

NUWA-XL “从粗到细”的生成方法具有三个优势:

  • 分层结构使模型能够直接在长视频上进行训练,从而消除了训练和推理之间的差距。NUWA-XL 会先生成类似于连环画的关键帧,既加强了场景切换又保证全局内容的统一,再在关键帧之间生成更多帧画面。同时,模型从 L 到 L^m 的每一层关键帧还支持文字提示生成关键帧,极大地确保了视频情节的连续性。
  • 模型包含多个局部扩散模型,自然支持并行推理,可以显著提高生成长视频时的推理速度。例如在相同的硬件设置下,当生成1024帧时,NUWA-XL 使平均推理时间从7.55分钟减少到26秒,速度提升了94.26%。
  • 由于视频的长度可以相对于深度 m 呈指数级扩展,因此模型可以很容易地扩展出更长的视频。

长视频生成的时间、质量和连续性均获得最优性能

除了生成时间的大幅缩短外,NUWA-XL 在 Avg FID 和 Block FVD(B-FVD)两个指标上也优于其它模型。Avg FID 起始距离(FID)是一种评估图像生成的度量,用于计算生成帧的平均质量,数值越低越好。B-FVD 视频距离(FVD)则被广泛用于评估生成视频的质量。

如表1所示,对于 “X over AR” 架构,由于误差累积,生成帧的 Avg FID 随着视频长度的增加而下降,例如 Phenaki,生成16帧的数值是40.14,生成1024帧时是48.56。与之相比,NUWA-XL 不是按顺序生成帧,所以质量不会随着视频长度的增长而下降,Avg FID 始终保持在35左右。

同时,与仅在短视频上训练的 “AR over X” 相比,NUWA-XL 能够生成更高质量的长视频,而且随着视频长度的增长,NUWA-XL 的生成片段(B-FVD-16)质量下降得更慢,因为 NUWA-XL 已经学习了长视频的模式。此外,可并行执行这一特性使得 NUWA-XL 在生成256帧时,推理速度提高了85.09%;生成1024帧时,推理速度提高了94.26%。

表1:NUWA-XL 长视频生成与最先进模型的定量比较(其中 Avg FID 数值越小代表性能越好)

NUWA-XL为人工智能视频生成提供新思路

“在长视频生成的研究过程上,我们也咨询了专业的动画制作人员,了解了真正的动画制作流程,即先画出故事中的几个关键画面(即关键帧),再在关键帧之间不断添加更多的画面,来丰富故事情节确保连续性。正是受到真实动画创作流程的启发,我们在 NUWA-XL 工作中采取了 Diffusion over Diffusion 这样一种由粗到细的设计。相较传统从左至右的生成方法,NUWA-XL 由粗到细的生成方法从根本上改变了人工智能生成长视频的方式。”微软亚洲研究院主管研究员吴晨飞说。

NUWA-XL 以动画片为例验证了 Diffusion over Diffusion 架构的有效性,为超长视频的人工智能生成研究打开了新的思路。未来,通过在电影、电视等更多的视频数据上的训练,以及更强大的算力,NUWA-XL 或将进一步帮助动画、电影、电视、广告等视觉制作领域提高生产力。

对于人工智能多模态大模型的发展,段楠认为,“现在的大模型还停留在文字生成阶段,尽管 GPT-4 在理解端加入了视觉信息,但也仅限于图片,输出端还是文字或代码。因此,当前及未来的研究路线非常清晰,就是将语言与视觉的理解和生成融入到一个基础大模型中,在输出端加强图像、视频、音频的生成。我们希望未来可以用一套架构来融合支持语言、视觉的生成算法,让人工智能模型更加通用。”

相关链接:

NUWA-XL项目页面:

https://msra-nuwa-dev.azurewebsites.net/#/

论文链接:

https://arxiv.org/abs/2303.12346

二、ai画图有哪些重要的技术难点

AI画图有哪些重要的技术难点

随着人工智能技术的不断发展,AI画图成为了一个备受关注的研究领域。AI画图的目标是让计算机能够像人类一样进行创作和绘画,但是要实现这一目标面临着许多重要的技术难点。

1: 生成真实、逼真的图像

AI画图的一个重要技术难点是生成真实、逼真的图像。要让计算机生成具有艺术价值的图像,并且这些图像看起来像是由人类绘制的,并不是一件容易的事情。需要解决的问题包括颜色、纹理、光照等方面的模拟,以及细节和逼真度的提升。

2: 理解和应用艺术风格

另一个重要的技术难点是让计算机理解和应用艺术风格。绘画艺术有许多不同的风格,例如印象派、现实主义、抽象等。要让计算机能够根据用户的需求和输入的风格指导生成具有特定艺术风格的图像,需要深入研究和理解各种艺术风格,并将其应用到AI画图的算法中。

3: 创造性和想象力

创造性和想象力是艺术创作的核心。要让计算机具备创造性和想象力,可以自主生成具有独特风格和创意的图像,是一个极具挑战性的技术难题。需要探索如何将机器学习和生成模型与艺术创作的思维方式相结合,以实现计算机的创造性。

4: 生成多样性和个性化

AI画图的另一个重要技术难点是生成多样性和个性化的图像。艺术作品应该是独一无二的,每个人都有自己的艺术风格和喜好。要让计算机能够生成具有多样性和个性化的图像,需要设计相应的算法和模型,以满足用户的个性化需求。

5: 与人类艺术家的合作

AI画图还面临着与人类艺术家的合作的技术难点。虽然计算机可以生成图像,但是与人类艺术家相比,计算机在创意和表达方面存在一定的局限性。因此,如何将AI技术与人类艺术家的创作相结合,实现协同创作,是一个值得研究的问题。

总之,AI画图面临着许多重要的技术难点,包括生成真实逼真的图像、理解和应用艺术风格、创造性和想象力、生成多样性和个性化以及与人类艺术家的合作。解决这些难题将推动AI画图技术的发展,为艺术创作带来新的可能性。

三、光纤熔接技术难点?

主要技术难点如下:

1、光纤接续

(1)光纤接续。光纤接续应遵循的原则是:芯数相等时,要同束管内的对应色光纤对接,芯数不同时,按顺序先接芯数大的,再接芯数小的。

(2)光纤接续的方法有:熔接、活动连接、机械连接三种。在工程中大都采用熔接法。采用这种熔接方法的接点损耗小,反射损耗大,可靠性高。

(3)光纤接续的过程和步骤:

①开剥光缆,并将光缆固定到接续盒内。注意不要伤到束管,开剥长度取1m左右,用卫生纸将油膏擦拭干净,将光缆穿入接续盒,固定钢丝时一定要压紧,不能有松动。否则,有可能造成光缆打滚折断纤芯。

②分纤将光纤穿过热缩管。将不同束管,不同颜色的光纤分开,穿过热缩管。剥去涂覆层的光纤很脆弱,使用热缩管,可以保护光纤熔接头。

③打开古河S176熔接机电源,采用预置的42种程式进行熔接,并在使用中和使用后及时去除熔接机中的灰尘,特别是夹具,各镜面和V型槽内的粉尘和光纤碎未。CATV使用的光纤有常规型单模光纤和色散位移单模光纤,工作波长也有1310nm和1550nm两种。所以,熔接前要根据系统使用的光纤和工作波长来选择合适的熔接程序。如没有特殊情况,一般都选用自动熔接程序。

④制作光纤端面。光纤端面制作的好坏将直接影响接续质量,所以在熔接前一定要做好合格的端面。用专用的剥线钳剥去涂覆层,再用沾酒精的清洁棉在裸纤上擦拭几次,用力要适度,然后用精密光纤切割刀切割光纤,对0.25mm(外涂层)光纤,切割长度为8mm-16mm,对0.9mm(外涂层)光纤,切割长度只能是16mm。

⑤放置光纤。将光纤放在熔接机的V形槽中,小心压上光纤压板和光纤夹具,要根据光纤切割长度设置光纤在压板中的位置,关上防风罩,即可自动完成熔接,只需11秒。

⑥移出光纤用加热炉加热热缩管。打开防风罩,把光纤从熔接机上取出,再将热缩管放在裸纤中心,放到加热炉中加热。加热器可使用20mm微型热缩套管和40mm及60mm一般热缩套管,20mm热缩管需40秒,60mm热缩管为85秒。

⑦盘纤固定。将接续好的光纤盘到光纤收容盘上,在盘纤时,盘圈的半径越大,弧度越大,整个线路的损耗越小。所以一定要保持一定的半径,使激光在纤芯里传输时,避免产生一些不必要的损耗。

⑧密封和挂起。野外接续盒一定要密封好,防止进水。熔接盒进水后,由于光纤及光纤熔接点长期浸泡在水中,可能会先出现部分光纤衰减增加。套上不锈钢挂钩并挂在吊线上。至此,光纤熔接完成。

2、光纤测试

光纤在架设,熔接完工后就是测试工作,使用的仪器主要是OTDR测试仪,用加拿大EXFO公司的FTB-100B便携式中文彩色触摸屏OTDR测试仪(动态范围有32/31、37.5/35、40/38、45/43db),可以测试,光纤断点的位置;光纤链路的全程损耗;了解沿光纤长度的损耗分布;光纤接续点的接头损耗。为了测试准确,OTDR测试仪的脉冲大小和宽度要适当选择,按照厂方给出的折射率n值的指标设定。在判断故障点时,如果光缆长度预先不知道,可先放在自动OTDR,找出故障点的大体地点,然后放在高级OTDR。将脉冲大小和宽度选择小一点,但要与光缆长度相对应,盲区减小直至与坐标线重合,脉宽越小越精确,当然脉冲太小后曲线显示出现噪波,要恰到好处。再就是加接探纤盘,目的是为了防止近处有盲区不易发觉。关于判断断点时,如果断点不在接续盒处,将就近处接续盒打开,接上OTDR测试仪,测试故障点距离测试点的准确距离,利用光缆上的米标就很容易找出故障点。利用米标查找故障时,对层绞式光缆还有一个绞合率问题,那就是光缆的长度和光纤的长度并不相等,光纤的长度大约是光缆长度的1.005倍,利用上述方法可成功排除多处断点和高损耗点。

四、什么叫技术难点?

指技术中问题不容易解决的地方。

技术是解决问题的方法及方法原理,是指人们利用现有事物形成新事物,或是改变现有事物功能、性能的方法。技术应具备明确的使用范围和被其它人认知的形式和载体,如原材料(输入)、产成品(输出)、工艺、工具、设备、设施、标准、规范、指标、计量方法等。技术与科学相比,技术更强调实用,而科学更强调研究;技术与艺术相比,技术更强调功能,艺术更强调表达。

五、鳜鱼养殖技术难点?

一、鱼塘的准备

鳜鱼是淡水鱼,主要生活在我国的一些江河湖泊里,在自然中属于比较底层的草鱼。所以我们建设鱼塘的时候首先就是要用淡水,然后鱼塘的面积要足够鳜鱼的生活,一般低于五亩地面积的鱼塘都不适合大量养殖,面积太小的话是养不了多少鱼的,看不到收益在哪,所以小编在这里建议大家,既然决定的要养殖鳜鱼,就要将鱼塘的面积弄得尽可能的大一些,然后鱼塘建造好以后在池底撒上一层石灰粉,以起到杀菌消毒的作用,然后将在将鱼池冲洗一遍,池底翻入一些适量的淤泥,然后在根据面积的大小适量的栽种一些水草以供鳜鱼啃食和栖息。然后还有一点要大家注意的就是,鱼塘里的水一定要是活水或者是经常性的换着,否则水质很容易出现问题的,一旦水质因为管理不善受到了污染,那么这一整池的鱼都会多多受到波及,严重的话会导致鱼群的大面积死亡,所以水质的问题一定要当做重中之重的问题来处理。

二、水源与饲料的准备

刚刚才说到水源的重要性,其实除了水质以外,还有一个需要我们重视的问题就是水温,水温的过高或者过低对鳜鱼的生长都是极为不利的,这点想必大家都明白就不多说了,然后就是水源的来源,最好是自来水,要么就是远离污染源的清澈天然的河水,当然了,不是哪个地方都能够随便就找出来一条小河的,所以还是用自来水现实一点。然后将鱼塘和水源的问题都解决了之后呢,我们就要着手准备一下饲料的事了,像一些小鱼卵小虾米,蛋黄粉等都可以作为蛋白质的补充饲料投喂的,然后在上市面上购买一些专门用于饲养鳜鱼的饲料,相互配合掺搭着喂,但是投食的时候要注意量度大小的控制啊,否则的话吃不完的鱼食就会漂浮在水面上,时间一久就会过期变质,如果在被肚子饿的鱼儿吃掉了可是会导致生病的,即便没有鱼来吃还是会造成水质的污染,所以我们发现这些水面上有剩余饵料的话就要及时的打捞上来。

三、日常管理

想要养殖好鳜鱼,我们就要有一套专门用来养殖鳜鱼的经验和技术,不明白的找老养殖户问问,如果不知道要怎么管理或者连养殖方法都没搞懂的,建议大家先将这些基础性的东西搞明白了再来养鳜鱼,否则你还想赚钱啊?不赔钱都是很不错的了!这里就先说几个要点,第一点:水温,鳜鱼能适应的水温在15-32度这个范围,高了或者低于这个范畴都不可以,鱼群会发生各种病害的。

最佳的水温是在二三十度的这个小区间里,就二十多度的水温是最适宜鳜鱼生长的,最低温度不能与七度,否则鱼群会被大面积的进入休眠状态,不休眠的又可以面临着被冻死的危险。第二点:清洁,鱼塘每隔一段时间就要进行一次大面积的清理工作,将鱼粪啊,吃剩的饵料啊,等等一切杂事全部打捞出去,如果换水方便的话直接换水也可以,鱼塘也要定期的消毒,一般每隔一个星期或者半个月就会进行一次全方位的清洁消毒工作。第三点:投食,一天有投食三次,每次的量要根据鳜鱼的食量来决定,可以不定期的在鱼饵里面掺拌一些杀菌类的药物给与吃下,这样能很大程度下预防鱼群发生病害。

六、田螺养殖技术难点?

田螺养殖的难点主要在于环境控制和疾病防治。田螺对水质、温度、饲料等环境因素要求较高,需要投入较多的人力、物力和财力。同时,田螺易感染疾病和寄生虫,需要加强防治措施,保持水质清洁。

七、固态电池的技术难点?

固态电解质材料中的锂离子电导率偏低,固态电解质有三种,聚合物电解质需要加热到60℃才可以获得足够的导电率;氧化物电解质中锂离子的电导率比液态要低很多;硫化物电解质中的锂离子导电率跟液态相近但是易氧化产生有毒气体。

固-固界面接触难题,内阻较大,循环性能、倍率性能差。

固态电解质与正负极的界面接触性和稳定性差,导致内阻加大,循环性能变差。

固态电解质中的锂反复充放电的循环性和安全性还需要继续研究。

固体电解质成本较高,全固态电解质锂电池制作工艺复杂,也使得固体电池成本高昂。

八、网箱黄鳝养殖技术难点?

1、网箱结构

箱体要求质量好,网眼密,网箱的面积一般在20平方米左右,网箱的水深要达到1.5米以上。网箱制作好后,必须经过3-5天浸泡,有害物质散发消失后方可放养鳝种。

2、网箱设置

箱体用支架固定在水中,而且要注意固定住四角位置,这样利于捕鳝和投喂饲料。养殖户需要根据养殖的规模控制网箱的个数。

3、鱼池选择

鱼池的环境是养殖好黄鳝的关键,所以要鱼池的底部要平坦,向排水方向稍倾斜;鱼池排灌自然,避免串灌,预防疾病传染。保证鱼池的水质不受影响,有充足的溶氧量。都是养好黄鳝的基础。

4、合理投饵

投饵量根据饵料的种类、水温、水质及其摄食情况来定,饵料主要以蝇蛆、蚌螺肉、小鱼、蚯蚓为主,在更换饲料的时候,要做好黄鳝的驯化工作,使黄鳝适应新的饵料,每日投喂饵料为黄鳝总体重6-7%,残饵在次日要及时清出。保证黄鳝的健康,而且可以快速育肥。

5、疾病预防

网箱养殖黄鳝的重点就是,养殖鱼池要定期清理、消毒,投入新鲜饵料,不投腐烂变质的饵料,黄鳝的摄食和活动要时刻关注,发病后,要及时捞出,并对发病的水体使用生石灰消毒,这样可以减少黄鳝的患病的几率,而且要注意及时更换新水。

九、瘦身鱼养殖技术难点?

1.养殖池选择,水质、水源作为首选条件,选择远离城区、工业区、环境好、无污染又符合养殖用水标准、淤泥浅的新鱼塘或者流水养殖池,最好是青山绿水之地,利用高山流出的山泉水,也可以利用无污染、水质优良的江河、湖泊水作为养殖基地用水。一方面,水质清新、水源充足、水温稳定,瘦身时间短,效果好,效率高;另一方面,水中富含微量元素和矿物质,可以提高瘦身鱼的品质。瘦身养殖过程中温度应尽量保持在8~25℃。由于不投饲,仅作为运动基地和疗养场所,鱼场尾水不会污染环境,符合山区水产养殖要求,是振兴山村、扶贫攻坚、致富村民的好项目之一。

2.成鱼选择,在正规健康水产养殖场,选择无鱼病、无损伤、无感染、无畸形、体质健壮的草、青、鲢、鳙等商品成鱼,个体越大、效果越好。其他品种的鱼也可以,只是没有以上品种口感品尝效果明显。在确定商品成鱼放入瘦身池塘之前,必须进行孔雀石绿、硝基呋喃、氯霉素、沙星类等违禁药物的抽样检查筛选,严格杜绝检测不合格的成鱼进入瘦身鱼养殖池。在捕捞和转运过程中尽量减少机械损伤,提高成活率。

3.养殖时间,瘦身鱼饲养时间有一定的要求,根据投放商品成鱼的体质状况和瘦身鱼池的水质、水温情况来确定,一般最少不得低于8个月,瘦身1年左右效果最好,鱼体肌肉最为紧实,脂肪和蛋白质比例最为合适,食用口感最佳。

十、钠离子电池技术难点?

1.能量密度偏低,不太可能做动力电池,或者只做低端低续航的小型车。

2.安全问题自然存在,没有从根本上解决,用于储能也比较难做。

3.相比锂电池,技术问题更难解决,尤其是正极材料。

4. 成本比锂电池低,但也有限,应用场景很尴尬。

相关推荐