创业公司，如何做好AI?_生活

创业公司，如何做好AI?

2023.09.13 14:40
0.07k

内容来源：2023年7月8日，杭州AIGC 赋能商业 & 视频号峰会。

分享嘉宾：新加坡国立大学中文EMBA校友，Castbox创始人。

高级笔记达人 | 天朗明月

责编 | 金木研

第 7690 篇深度好文：11015 字 | 23分钟阅读

商业思维

笔记君说：

本次会议主要介绍了创业公司如何应用最新的AI模型，包括生成式AI技术和应用方向。

其中，可控性是生成式AI的核心，随着多模态人工智能的出现，可控性将不断提高。同时，还介绍了AI技术在视频处理、3D、音频等领域的应用。

此外，还介绍了AI对创业公司的影响和如何通过AI来有效减小团队规模。最后，还介绍了多个基于AI的创业公司在AI领域中的新应用，包括zoomai、多重模态AI模型技术、数字人应用、虚拟角色等。

一、生成式AI技术与应用方向

1.生成式AI技术介绍

上图是由a16z风投公司制作的关于生成式AI技术的堆栈图。

最底层是Compute Hardware（计算硬件），包括谷歌的 TPUs 和英伟达的 GPUs。

再往上是Cloud Platforms云平台，有亚马逊的 AWS、谷歌的 GCP、微软的 Azure 等。

在云平台之上，有端到端的应用程序，如Midjourney绘画APP、Runway游戏等，它们使用云平台的服务和自有的GPU。

再往右是应用程序。应用程序有两种类型：一种是代码闭源，提供API，如GPT-3；另一种是完全开源的基础模型，即源代码或训练参数都是开源的。

开源模型有两种：一种是开源源代码，另一种是开源训练参数和训练材料。

再往上是Model Hubs（模型中心）。例如 Hugging Face。这些公司虽然年轻，但已经获得了很高的估值。它们可以在开源模型上部署环境，让用户运行AI模型。

最上层是应用程序，这些应用程序可以使用开源模型或API在其上运行。有些公司甚至会在自己的产品上运行API和开源模型。

对于创业公司或在AI领域没有足够积累的大公司，他们可以从两方面入手：一方面，他们可以使用API或开源模型，在其基础上构建自己的服务，开发AI原生产品或功能。另一方面，他们可以使用别人的端到端产品或现有应用程序，然后自己开发一些提高效率的工具，以提升AI的性能。

2.生成式AI的6个应用方向

在讨论人工智能时，一个重要主题是可控性，这也是生成式AI或称之为Jan AI的核心。人工智能的发展历程实际上是一个可控性不断提高的过程。换句话说，即使一个技术或产品非常出色，但如果它的可控性不佳，那么它仍然无法被广泛应用。

上图从左到右可以看到一个明显的趋势，即可控性在不断提高。

最早的人工智能产品完全不可控，它们可能仅是实验性产品。然而，随着 GPT2 和 GPT3 的出现，我们在低可控文本生成方面取得了很大进步。尽管它们的可控性仍然较低，但它们的 GPD（生成性预训练数据）表现非常出色，进一步提高了它们的可控性。

目前，我们正在迈向多模态人工智能，未来我们还将看到AGI（通用人工智能）和 ASI（超级智能）的出现。AGI 意味着人工智能可以比人类做得更好，而 ASI 则意味着人工智能已经超越了人类。这些都代表着我们在人工智能领域不断前进的步伐。

因此，可控性的本质是让我们的产品和初步成果越来越接近我们的期望，越来越符合我们的需求。这也是我们在使用人工智能提高效率时需要考虑的重要因素。

在 AI 领域，开源项目层出不穷，为创业公司和非专业领域的公司提供了许多免费且实用的资源。

接下来，我将从6个维度为大家分享一些最新的开源项目，大家可以根据实际需求进行选择和应用。

① 视频

第一，Rerender 开源产品

这是今年刚开源的一个项目。它不仅能帮助你将视频换一种风格，还能让你通过简单的文字描述轻松地生成具有艺术家风格的视频。

在没有使用Rerender的情况下，如果你想替换视频风格，会发现视频画面跳动得很厉害，但使用Rerender算法后，画面会变得平缓许多。这正是Rerender的魅力所在。

在GitHub上，你可以找到Rerender的源代码。实际上，我也是通过这个平台找到它的。你可以输入一些简单的文字描述，例如，我想要一个梵高风格的视频，Rerender会根据你输入的描述生成一个梵高风格的视频。

第二，Deep Face

Deep Face AI项目展示了AI技术在视频处理方面的巨大潜力。通过这个模型，我们可以轻松地将一个视频中的脸替换成另一个视频中的脸。

尽管Deep Face的源代码并未开源，但您可以在网上轻松找到类似环境来训练自己的模型。

训练过程其实很简单，你只需要用一个不到一分钟的视频来训练模型，告诉它这是钢铁侠的脸。然后再将另一个视频输入模型，它就能将脸替换过来。

第三，Roop

Roop AI项目与刚刚提到的Deep Face不同。Roop可以直接转换一张图片，而不需要进行视频训练。虽然效果可能没有Deep Face好，但它的优势在于速度快。只需一分钟或两分钟，就可以生成一个有趣的视频。

Roop是一个开源项目，你可以在网上找到它的代码。举个例子，如果你想将一份文档换成你自己的头像，只需要使用Roop进行处理，就可以得到一个有趣的视频。

在使用Roop时，大家需要遵守法律法规。尽管这个项目很有趣，但我们仍需遵守相关法规，避免不正当用途。

② 3D

AI在3D领域中进展最慢，但其潜力仍然很大。目前，3D主要应用于游戏素材的制作，例如贴膜和纹理。

上图是利用AI生成的，但生成的不是模型，而是纹理图。

尽管一些技术可以直接生成3D模型，但目前效果仍不理想。不过，AI可以生成一些类似于3D效果的平面图。

需要注意的是，这些图片并非真正的3D，而是AI生成的3D效果。

最近，优磊达推出了一个新的 3D 项目，它可以实现动作捕捉。例如，老师用剑去砍这样的动作，这些动作都是通过 AI 训练大量图片来实现的。据说原神等游戏都在与英伟达合作，使用这种动作捕捉技术。

如果我们不去学习这些新技术，可能会被淘汰。例如，詹同学他们以前做动作捕捉需要大量人，但现在全都是 AI 做，所以对他们来说，可能需要改变方向。

③ 音频

AI在音频领域的技术包括文字转换、语音转换、以及生成音乐等，这些技术都具有很多应用场景。

Bark开源工具是今年年初推出的，我认为它在所有文字转换语音工具中效果最好。

此外，还有一款工具so-vits-svc，可以将语音转换成不同的音色。

之前有一个电数字版的孙燕姿，实际上是采用了这个开源模型。同时，我也提到了两个生成歌曲的例子，一个是文字转换语音，另一个是语音转换。

对于音频转换，实现方式有些复杂。您需要输入您喜欢的声优音频并训练模型，这样便可将这个声音应用到您喜欢的歌曲中。

目前硅谷有很多团队在进行类似项目。年初时，这些项目还容易获得融资。但整体而言，音频项目相对于其他领域还是有所差距。不过，基于大语言模型的项目整体上还是不错的。

④ 图片

在图片领域，有4种主流技术。

第一，Diffusion - image/videogeneration（漫射图像/视频生成）。这是一种通过降噪生成图片或视频的技术。

如上图所示，你将得到一张噪音图，并通过不断优化，最终生成一张清晰的图片或视频。

第二，ControlNet，这是一种增强AI可控性的技术。它的原理是在生成过程中，通过控制某些变量，达到生成特定样式图片的目的。Controlnet具有开源性质，使得更多开发者可以参与其中，不断优化和改进。

我们可以提供一张道路图片，通过AI技术生成与原图相似的新道路。如上图所示，如果你提供一个素描，AI可以根据这个素描生成相应的图片。或者，如果你提供一个Sketch，即一种简单的图形框架，AI也可以在此基础上生成新的图片。

此外，还有一种名为openpose,的技术，它是基于一个人的样子进行生成。简单来说，你可以给AI一个参考图片，让它根据这个参考生成新的图片。

第三，Drag GAN技术是ControlNet的核心技术。通过设定一个点，您可以将其移动到图片的任何位置，从而实现对图片的操控。这样一来，我们不仅可以轻松地改变图片的大小和位置，还可以实现更多令人惊叹的效果。

未来，我们或许不需要花时间学习Photoshop这样的软件，只需轻轻一点，AI就能帮我们生成任何我们想要的图片。这对于想要快速改变图片的人来说，无疑是一个极大的便利。

第四，LoRA是一种增加可控性的实践方法。与刚刚提到的ControlNet类似，通过设定一个控制点来实现对图片的操控。不过，LoRA更进一步地可以帮助我们训练出一个特定的风格。

以公司APP中的游戏截图作为参考，通过训练LoRA，让AI生成类似风格的图片。如果我们不训练自己的LoRA，它会默认生成一种风格，但这种风格可能并不符合我们的期待。因此，我们可以将已经做好的地图、小人等素材训练进去，让AI根据这些素材生成新的图片。

这样做的好处有很多，首先，这些图片都是由AI生成的，成本低。其次，AI能够生成各种风格，因为它见过很多张图，所以能画出来的东西比我们想象的要多。最后，AI可以帮助我们快速找到不同的素材，例如我们只需要在图片上圈出一个区域，告诉AI我们想要什么样的图片，AI就能立刻为我们生成。

这样一来，我们的工作效率能得到极大提高。而且，AI生成的图片不仅可以满足我们的需求，还能为我们提供更多的灵感和选择。

⑤ 代码

如果你的团队里有工程师，我建议大家尝试使用AI辅助编写代码。例如，我可以给出一些文字说明，如, ad customer email, AI可以根据这个生成相应的SQL代码。或者，我可以把原本的JavaScriptAPP代码转换成Python。

目前，AI在代码领域的应用已经非常成熟，分为多模态和纯大语言模型两种类型。实际上，代码领域的AI学习速度非常快，因为GitHub上有大量的代码供它学习。以前人们认为只有大公司的工程师才能见到各种代码，但现在，你在GitHub上就可以学习到各种代码，无需加入大公司。

在GitHub上，有许多优秀的代码可以用于训练AI，这些AI甚至比人类工程师写得更好，且bug更少。它们可以不间断地工作，提高编写代码的效率。目前，我们有一些内部用的AI代码辅助工具，这些工具可以帮助工程师更快地编写代码。

例如，有些工程师以前从未写注释，但当你发现他们的代码里注释特别清楚时，很可能他们已经开始使用AI辅助编写代码了。使用AI代码辅助工具，可以让工程师更高效地编写代码，提高工作效率。

此外，对于一些老项目，如果有员工已经离职，我们可以将代码交给AI，让AI帮助我们生成注释。这样，即使员工离职，项目的进展也不会受到太大影响。这也是我们现在编写代码时使用AI的一个重要原因。

⑥ 文字

文字是提高效率的关键。以ChatGPT为例，它采用了3.5的语法，展示了文字的强大潜力。

首先Prompt语法是关键。

虽然这个秘方很少有人知道，但它对于使用ChatGPT非常重要。

你需要清楚地写出以下要素：任务、指令、角色和关键词。尤其是关键词非常重要，它包含了你的核心点，把这些写清楚，代码的输出结果会更好。

其次，Temperature 也是一个重要概念。

Temperature是ChatGPT官方的一个功能，名为platform。Temperature的调整是什么？Tempter的分数值越低，提供的数据值越保守，分数值越高，表现出越狂野。

我们可以进行一个实验，让他写一首诗。当Temperature等于0时，他不会给我写一首诗。但当Temperature变为1时，他已经增加了很多丰富度。当Temperature等于1.5时，他已经在胡了。

当然，在写作业时，我们需要避免使用过高的Temperature，以免被老师发现。

我们公司目前主要使用ChatGPT进行翻译工作。我们正在开发自己的2．0版本工具，以便更好地在内部使用。此外，我们还让ChatGPT帮助撰写一些文案，现在基本上不需要人工写作了。

3.如何让AI的回答更准确？

1364乘以2343等于多少？对于这个问题，Google的正确答案是3195852。但ChatGPT给出的答案可能有些出入。人的大脑本质上是一个预测模型，会根据过去的经验进行预测。

ChatGPT作为一个人工智能助手，其逻辑基于概率。它可能会给出一个大概率的答案，但并不保证完全正确。这就需要我们理解ChatGPT或者大语言模型的运作逻辑。

第一，Few Shots

Few Shots是一个心理学概念，指在有限情况下进行学习和决策。对于ChatGPT，在训练过程中会给出大量例子以便进行有效学习。这也是为什么ChatGPT在UGP3和GP4之后的表现如此出色。因为它在训练过程中不断给出好的和不好的例子以进行有效学习。

第二，Chain-of-Thought

Chain-of-Thought是一种思维方式，指的是逐步进行思考和决策。对于ChatGPT，我们可以给出一个逐步的思考方式，以便它能够更好地学习和决策。这需要我们提供一个有效的思考方式，让它按照这个方式逐步进行学习和决策。

第三，Program-Aided Language

PAL－Aided Language，即使用程序辅助语言进行计算。这种方法在理解问题部分仍使用自然语言模型，但在计算部分使用计算器或Python进行计算。

这就像给孩子一个计算器，让他们用计算器进行计算，而不是用纸笔计算。在使用这种方法时，我们会调用ChatGPT或其他类似模型来理解问题，然后使用Python或其他编程语言进行计算。

第四，OpenAI Plugin

另一种获得正确答案的方法是使用OpenAI的插件。OpenAI自带一些插件可用于计算。这些插件的使用方式与POI类似，但实现方式有所不同。

第五，OpenAI Interpreter

最近，OpenAI推出了一个名为OpenAI Interpreter的工具，非常好用。它可以帮助我们进行大量数据分析和数学运算，甚至可以帮助我们进行Python编程。

我们可以将所有数字数据和文档交给它，让它帮我们完成各种任务。这个工具的使用方式与OpenAI的整个理念非常相似，它们强调使用工具来提高我们的思考能力和边界。

总之，提出正确的问题非常重要。因为人工智能比我们更聪明，他们可以阅读大量的书籍和资料，所以我们很难比它们更有知识。因此，我们需要学会提出正确的问题，让它们能够更好地帮助我们解决问题。

4.AI对创业公司的影响

对于创业公司而言，在不改变业务方向的情况下，能否通过AI有效减小团队规模？这是一个值得探讨的问题。

例如，对于那些初创公司，是否能在不改变业务方向的前提下，利用AI来缩减团队规模？对于这个问题，不知道大家有何看法，是否认为这是可行的？

实际上，创业公司的核心在于找到合适的产品定位，有时会面临招聘不到合适人才来帮助快速实现目标的问题。在这种情况下，AI是否能成为解决之道？虽然这个问题尚未定论，但AI在招聘、培训、管理等方面的应用无疑为解决这个问题提供了新的可能性。

在寻找产品市场匹配PMF之前，很难找到大量人才，因为大家都在寻找PMF。一旦找到PMF，就很难再招到同样优秀的人才。例如，有时候优秀的员工会选择Google、大公司或知名企业，而不会选择我们这种小公司。

但是，拥有了ChatGPT和其他AI技术后，对人才的要求可以降低。以前需要找美术技能很好的人，现在只要他们聪明且愿意学习，就可以胜任。例如，我们招聘应用商店优化师ASO，需要这个人的英语水平达到母语水平，并且至少还会一门额外的外语。

有些人可以承担三个人的工作，但通常不会选择加入我们这样的小公司。在这种情况下，如果有了AI技术，只要这个人聪明且愿意学习基本英语水平，他就能写出优秀作品。面对母语人士，你对人才的要求也可以降低。因此，你可以招聘更多人才。

其次，核心原因是AI技术发展非常快。今天我讲的很多内容实际上都是这周更新的，包括DEC、开放和微调等。这就像我们的员工都在学习AI技术，需要招聘更多人来完成工作。

将这部分生产力用于学习并不是不好的事情，因为这说明技术正在不断迭代更新。无论是大模型还是小模型，都在不断更新。因此，必须保持不断学习，才能发现这项技术是否可以为你所用。

二、通用大语言模型技术与应用

目前，AI主要涵盖两个领域：一个是语言模型，另一个是多模态。如上图所示，左边展示了与语言模型相关的内容，涵盖了代码和文字生成等方面。而右边则展示了多模态领域的表现，如图片和视频等。

1.基础模型

最近，许多人在讨论ChatGPT的使用体验。由于用户数量众多，算力无法满足需求，据说其智能水平已降低近80％，仅有原来的20％-30％。然而，cloud two据说表现还不错，且能识别更长的token。

接下来，我们来看开源模型的进展。

我已用蓝绿色标记了最新的进展，包括7月份发布的Llama Two。Llama Two的表现相当不错，尽管有些人认为直接使用Llama Two可能没有经过细调，需要进行二次开发。

此外，还有Filecoin，这是中东土豪开发的，其优势在于免费且对商业友好。早期Meta还发布了一个更早的Llama模型，表现相当不错。

那么，哪家公司的LLM技术强？

今天我找了一个Benchmark，是由MT完成的。他们认为目前整体上最好用的是JPT4。你甚至无需购买大量代码，只需在JPT4中进行编码即可。同时，你刚才提到的codeinterpreter，让它制作好Python后再转成其他语言，如Golang，整体效果也不错。

在Benchmark中，由于没有Cloud Two，我无法对其进行评价。但据说Cloud Two的v1和v2的表现还不错，大家可以尝试一下。

此外，Llama Two 也可以进行二次开发，但在商用方面需要注意法律风险，因为训练过程中需确保内容是否得到所有者的同意。原则上，这些开源模型不能商用，但大家普遍在使用，风险较小。然而，对于大公司，如Facebook，他们需要承担更多的法律风险。

2.开发范式

第一，Lang Chain编程工具

Lang Chain,这是一种常用的编程工具，它能帮助我们更好地进行编程工作。我们可以使用它进行记忆，也可以用它拆分文档。

FinGPT是一种典型的使用Lang Chain的案例。它是一款开源金融模型，可以做很多事情，如股价预测、投资组合管理，甚至包括风险研究和金融新闻分析。FinGPT是使用Lang Chain调用的ChatGPT API，或者是GPT4.54或GPT3.5的API。在这个过程中，FinGPT不断理解和分析新闻。

Robo Advisor,这是一种智能投顾工具，可以通过分析新闻标题判断股票涨跌。这是一种非常智能化的投资工具。

ChatGPT Trading,这是一种使用ChatGPT进行交易的工具。它是在新的GPT框架下开发的，能在区块链交易中发挥出色作用。

这些都是典型的AI native产品，它们充分利用了Lang Chain这种编程工具，实现了智能化操作。

第二，ChatALL

Chatall的原始代码是开源的，但基于这些代码，开发者可以创建自己的APP。你可以在APP中添加捐赠功能，同时也提供一些付费功能。这就相当于你可以向ChatGPT提出各种问题，获取不同的API服务。

其中，最典型的应用场景是将文档上传，询问相关问题，例如：这个问题的答案是什么？通过调整温度，使得每个人的答案都不尽相同。这就是我们交作业的方式。

此外，还有一些专门针对特定领域的ChatALL版本，如chat Excel，由北大的一位同学开发，主要针对Excel文件进行问答。Pin chat则主要针对金融相关问题，阿发Science同样针对金融领域。而chat doc则会询问关于文档的问题。

另一个名为checklong doc的开源项目，主要功能是基于输入的网页内容来回答特定主题的问题。例如，我可以输入一段关于“word Coin”的网页内容，让程序解释这个词汇的含义，以及它与Open API的关系，应用名称等，以及它具有哪些功能。

此外，还有一个名为elicit的工具，专门用于研究相关领域。其工作原理是将大量文档进行分段处理，然后将这些段落存储到矢量数据库中，最后对这些矢量数据库进行解读。这就是它的底层逻辑。

第三，Agent人工智能助手

谈到人工智能助手，它被认为是踏上人工智能之路的关键。本质上，它通过各种工具和规划，一步步引导你完成任务。

以AutoGPT视频为例，助手会根据指定的方向，借助AI力量帮助你思考接下来该如何执行。

此外，还有一个典型的人工智能助手实例，即斯坦福大学和谷歌共同创建的AI虚拟小镇。

这个小镇上生活着25个虚拟人物，他们在2月1日起床后，开始商量第二天的活动安排，例如邀请哪些人，如何组织等。AI虚拟小镇就是这些人工智能助手的工作内容。

3.应用模式演进

第一，Meta GPT

Meta GPT是一个非常有趣的项目，你可以了解到它是如何帮助你创建一个初创公司的。

假设你告诉 Meta GPT，你想要创建一个专注于开发 Blackjack 游戏的初创公司。Meta GPT 会为你进行产品分析、竞品分析，甚至编写代码。

此外，它还能为你的代码进行测试，并撰写相关文档。这一切都可以自动化完成，你只需告诉它你的需求。

虽然目前Meta GPT还无法生成图像，但随着技术的进步，未来它可能具备更多功能。总之，Meta GPT可以为你创建一个完整的初创公司，从文档到产品设计，再到代码编写，都可以由它来完成。

尽管目前Meta GPT的交互方式相对简单，类似于以前使用doc时的文字输入方式，但这也说明AI native的趋势正在逐渐发展。例如，Notion这样的工具将AI功能融入到文档编写中，帮助人们更高效地完成工作。

还有Zoom AI。

Zoom AI 是一个可以帮助你更好地整理会议材料的工具。这是 Zoom 添加的一项新功能，旨在提高用户的工作效率。通过使用Zoom AI，你可以轻松地将会议中的重要信息整理出来，以便于后续的回顾和处理。

三、多模态AI模型技术与典型应用场景

1.可控图片和视频生成

多模态领域有许多有趣的应用，首先让我们来谈谈Lansa。

Lansa是去年上线的产品，收入非常高，每天的收入可达到400万美金。Lansa主要帮助用户制作精美的图片，虽然当时使用Stable的用户并不多，但Lansa迅速抓住市场，为用户制作了许多炫酷的图片。

接下来，让我们看看Flair Flyer。

这是一个可以帮助市场营销人员去除图片背景并添加新背景的工具，它采用AI来完成这些工作。用户只需提供一句话，FlairFlyer 就会根据这句话生成一张符合需求的图片。例如，用户可以说：我要一张手握Kindle的图片，背景是夜空。然后Flair Flyer就会生成这样一张图片。

再来介绍一下 Rendefusion。

这是一家帮助用户搭建AI环境的公司，它将stable分为开源，让用户更方便地使用。用户只需提供一张简单的线图，Rendefusion就会根据线图生成一张精美的图片。

在AI模型方面，APR是一个训练模型丰富的平台，尤其是它的小黄篇模型，训练内容主要是黄篇，因此生成的图片非常丰富。这是一个值得大家收藏的平台。

此外，还有C站和C lit两个平台。它们提供了大量AI模型，可以生成各种精美图片。这些图片由机器生成，与人工无关。用户可根据自己需求选择合适模型，然后生成相应图片。

最后，让我们来看一些基于AI的数字人应用。

这些数字人应用主要为创业公司提供服务，帮助他们更好地选择模型。炼丹阁和黑站都是一个具有代表性的数字人应用，它们的CEO亲自讲解了产品，大家可以观看，这些都是AI生成的。

2.虚拟角色

Protoca是一个较老的产品，主要用于虚拟朋友和虚拟偶像的replica。而Para doc则是一个相对较新的产品，与Protoca的replica不同，它主要进行了更多的上下文处理。

当我们与AI进行聊天时，它会记住我们与它聊过的每一句话。而call ID则是我们可以与AI的MOS进行视频通讯的方式。如果大家有兴趣，可以去查看。

另外，In Word AI是一个AI native产品，它的目标是将游戏中的所有角色都制作成NPC，但目前真实网站上的功能较少。这意味着，它希望通过AI生成游戏中的素材，使每个人的游戏体验都独一无二。

以上就是这些创业公司在AI领域中的新应用，通过AI生成的游戏素材，使得每个人的游戏体验都是不同的。

3.3D场景和对象的生成或重建

YAHAA是一家致力于创建3D多人游戏的公司，让我们简单了解一下。紧接着是IN3D，这家公司专注于3D领域，他们的目标是创造许多虚拟角色，并在3D环境中实现实时互动。IN3D希望将现实生活中的人物转变为虚拟角色，当现实生活中的人物移动时，虚拟角色也会随之而动。

Roleverse和Rowords两家公司的目标相似，但侧重点略有不同。Roleverse和Rowords希望创建一个更加炫酷的3D虚拟世界，这个世界并非某个人的形象，而是一个完整的虚拟世界。用户可以创建物品，系统会自动生成一个背后的世界。

这里还涉及到一些跨模态的任务，如之前提到的虚拟角色、3D场景等。总的来说，这些公司主要以游戏和元宇宙为主导，致力于创造全新的虚拟世界。

4.跨文本、图像、视频等多模态语义的搜索或推理任务

刚刚提到的许多创业公司的项目，同时也有一些大公司在进行相关研究，例如微软的Hugging GPT项目。尽管这个项目尚处于初级阶段，但我强烈建议大家阅读它的论文和开源代码。

Hugging GPT由微软开发，主要功能是通过ChatGPT对输入指令进行分解，然后找到不同的AI模型将这些指令转化为现实。它已经连接了大约300多个AI模型。

例如，你可以询问图片里有几只斑马。系统会给出准确答案，同时还会告诉你使用了哪些模型进行识别。

此外，Hugging GPT还打破了文字和图片的边界。例如，您可以输入一张女孩在读书的图片，系统会自动根据您的输入生成一张相应的图片。同时，您还可以为这张图片配上文字，形成一个完整的场景。

Hugging GPT的理念是专家模型+通用大语言模型。通用大语言模型主要用于理解、规划和选择工具，而具体的工具操作则由专家模型完成。在这个项目中，微软在Hugging Face上找到了一些特殊模型作为专家模型。整个过程完全由机器自动完成，充满了科技感。

关于AI的其他思考角度，我之前提到了Control Net，这是目前许多人期望的发展方向。他们希望AI能够无所不能，甚至取代人类完成一些复杂的任务。

我认为，我们可以从其他角度审视AI，例如将AI native产品按照文字、视频、code等不同形式进行分类，或者从行业特定、跨模态、通用型等角度进行区分。

此外，我们还可以将AI模型按照应用场景进行分类，例如开发工具、AI产品、ToC和ToB等。这些模型在不同场景下具有不同特点，如产品ivity、陪伴性、游戏相关性等。

我记得有一句话来自一本书《个人主权》，说的是：“It'sthe best possible time of being alive, when almost everything you thought youknew is WRONG”它描述了AI领域的现状。当前，许多新事物不断涌现，许多我们今天认为正确的事物，明天可能就是错误的。然而，正是这种不断迭代更新的特点使AI领域充满了魅力。

今天的分享就到这里，谢谢大家。

*文章为作者独立观点，不代表笔记侠立场。

主办方简介——

新加坡国立大学(简称NUS)建立于1905年，是全球排名11，亚洲第一的世界级顶尖学府。新国大中文EMBA硕士学位课程是新加坡国立大学的旗舰项目，致力于培养具有国际化视野、全球化战略眼光的企业家、管理者和商界领袖。在最新QS全球EMBA排名前16名榜单中，新加坡国立大学是跻身于欧美院校中的唯一一所亚洲本土高等院校，而国大中文EMBA项目也是唯一入选的用中文授课的EMBA项目。

标签: 开源人工智能模态 ChatGPT 图片领域 GPT 3D 工具模型个人主权公司 AI 代码视频技术

免责声明:凡本网站发布的文章、图片、音频、视频等内容所表述的观点和立场不代表本网站的观点和立场，若对该观点或立场有疑义或异议，请及时用电子邮件或电话通知我们，以迅速采取适当措施，避免给双方造成不必要的经济损失。凡本网站发布的所有文章、图片、音频、视频文件等资料的版权归版权所有人所有，本站采用的非本站原创文章及图片等内容无法一一和版权者联系，如果本网所选内容的文章作者及编辑认为其作品不宜上网供大家浏览，或不应无偿使用，请及时用电子邮件或电话通知我们，以迅速采取适当措施，避免给双方造成不必要的经济损失。