临近年底,时代周刊评出年度十大 AI 发明,值得关注!

aaa

开箱即用的照片编辑

Adobe Photoshop 生成扩展和生成填充

aaa

Adobe 将强大的人工智能功能构建到世界上最受欢迎的图像编辑器 Photoshop 中,为数百万人提供了强大的人工智能功能。Photoshop 由 Adobe 的 AI 图像生成器 Firefly 提供支持,现在包含生成式扩展和生成式填充功能。前者允许您无缝地填充照片边界之外的想象内容。后者让您只需输入一些简单的文本即可在现有图像中添加或删除某些内容。两者都不需要技术专业知识。Adobe 数字媒体高级副总裁阿什利·斯蒂尔 (Ashley Still) 表示,这些选项使“客户能够以想象的速度将他们的愿景变为现实”。

 

改变游戏规则的人工智能

OpenAI GPT-4
aaa

3 月份发布以来,OpenAI 的 GPT-4 仍然是支持公众访问的聊天机器人的最强大的人工智能模型。虽然其前身 ChatGPT 的成绩仅比参加律师考试的 10% 的学生好,但 GPT-4 的成绩却超过了 90% 的学生。它擅长语言推理,可以将复杂的概念分解成简单的语言,甚至可以解释为什么一个笑话很有趣。9 月,OpenAI 开始推出通过语音与模型交互以及使用图像作为输入的功能。该更新 GPT-4V 已经过 Be My Eyes 的测试,Be My Eyes 是一家为视障人士构建工具的组织,可以用自然语言口头描述图片的内容。

 

富有创意的电影剪辑

Runway Gen-2

aaa

六月,Runway——一家谷歌支持的初创公司,其视觉效果工具被用来帮助制作奥斯卡奖得主《Everything Everywhere All At Once》中令人费解的图形——推出了 Gen-2 模型。新版本允许任何人仅根据文本提示、图像或其他视频生成完整的视频。Runway 联合创始人兼首席执行官 Cristóbal Valenzuela 将新技术与 200 年前相机的发明进行了比较。“人工智能是一种新型摄像机,”他说,“它将永远重塑故事讲述方式,并带来完全生成的完整故事片。”

Authentic AI

Alitheon FeaturePrint

aaa

解决价值数万亿美元的假冒商品问题的方法可能很简单,只需将手机的摄像头对准手表或手提包,然后让智能软件确定其真伪即可。FeaturePrint 是一种光学人工智能技术,它首先“看到”物理物品的微小表面细节,并将它们“指纹”成独特的数学特性。然后,只需单击一个按钮,它就可以告诉您某件商品是假货还是正品。Alitheon 首席执行官 Roei Ganzarski 表示:“无需贴纸、标签或标记。” Argor-Heraeus 就是其中一位客户,该公司为国家银行生产金条。

 

天空中的眼睛

Dedrone 全市无人机检测

aaa

Dedrone既可能带来破坏性,也可能带来好处。Dedrone 的全市无人机检测产品会在地理区域周围投掷虚拟防护罩,如果无人机进入指定空域,则会在几秒钟内向执法部门发出警告。Dedrone 跟踪来自无人机的专有信号组合,包括射频、ADS-B 数据(也用于飞机)和 RemoteID 信标,以识别入侵位置。该公司首席营销官玛丽-卢·斯莫德斯 (Mary-Lou Smulders) 将其与无人机空中交通管制系统进行了比较——这是以前不存在的东西。客户包括联合爱迪生公司,该公司正在使用它来保护其基础设施;巴塞罗那的警察部队;以及数量不详的机场。

 

翻译大师

Meta 公司的无缝翻译M4T

aaa

Meta 将其 SeamlessM4T AI 模型与《银河系漫游指南》中的通用语言翻译器 Babel Fish 进行了比较。该公司的软件能够理解近 100 种语言的语音或文本,并且可以以各种格式在它们之间进行实时翻译——语音到语音、文本到文本、语音到文本,或文本转语音。据 Meta 称,该系统除了可以处理比前辈更多的语言之外,还更加高效且不易出错,甚至可以破译同一个句子中混合在一起的多种语言。Meta 将该模型开源,这意味着世界各地的研究人员都可以使用其代码。

 

惊人的模仿

So-VITS-SVC

aaa

今年早些时候,一位名为 Ghostwriter 的匿名创作者推出了一首名为“Heart on My Sleeve”的歌曲,引起了轰动,其中人工智能生成的声音令人信服,听起来像 Drake 和 Weeknd。(它很快就被从合法的流媒体服务中撤下,但在病毒式传播之前。)这些声音是使用名为 So-VITS-SVC 的开源软件创建的,该软件允许技术人员根据歌手的声音训练神经网络,然后使用人工智能创建的声音制作任何歌曲。爱好者们在 Discord 社区中交换声音模型——从坏兔子到泰勒·斯威夫特再到詹姆斯·哈特菲尔德。与此同时,使用该软件的用户友好网站如雨后春笋般涌现。

 

阻止野火

AlertCalifornia 和 Cal Fire AI 野火探测器

aaa

在野火蔓延之前对其进行预防是目前困扰世界大部分地区的一项挑战。加州大学圣地亚哥分校的公共安全项目 AlertCalifornia 正在利用人工智能来提供帮助。该项目与加州消防局合作,训练人工智能根据全州森林中 1,050 多个摄像头组成的网络检测烟雾和其他早期火灾迹象。当系统发现异常情况时,它会通过短信向当地消防部门发出警报。在最初的两个月里,该系统在接到 911 电话之前就正确识别了 77 起火灾。“这个[系统]最成功的故事是那些你从未听说过的火灾,”AlertCalifornia 联合首席调查员 Falco Kuester 说。

 

音乐创作,变得简单

Stable Audio

aaa

Stability AI 创建的 Stable Audio 发挥了生成式 AI 的力量,只需几个简单的文本提示,就可以发出几乎任何您想要的声音或歌曲。(例如,输入“氛围科技、鼓机、平和、器乐”,就会产生一首轻松的新时代曲目,在别致的休息室中不会显得格格不入。)该模型是根据库存数据集进行训练的音频网站(所以都是合法的),包含超过 800,000 个音频文件,总计 20,000 小时,可用于专业和业余项目。

 

动物保护者

轨迹卫士人工智能

aaa

印度和非洲的部分地区,偷猎仍然是大象和大型猫科动物面临的最大灭绝威胁,即使在保护区也是如此。TrailGuard AI 是由美国环保组织 Resolve 创建的系统,采用采用英特尔技术的微型摄像头来监控濒临灭绝的物种并发现偷猎者。该系统使用手机信号或远程无线电信号,在短短 30 秒内将图像传输到当局的手机上。TrailGuard 的定制人工智能模型经过训练后不仅可以检测人类,还可以检测任何感兴趣的物种,从老虎到鬣狗。该技术在东非的测试阶段逮捕了 30 多名偷猎者,大规模测试目前正在老虎密集的印度中部进行。

 

想象你的想象力

OpenAI Dall-E 3

aaa

OpenAI 于 11 月向全世界发布 ChatGPT 时,它从根本上改变了人工智能的格局。该公司希望 DALL-E 3(其 AI 图像生成器的全新且经过大幅改进的版本)能够产生同样的影响。OpenAI 的 Aditya Ramesh(DALL-E 3 的发明者)表示,以前的图像生成器需要学习一种新的技术语言,包括附加带有减号和数字的字符串,以获得最佳结果。DALL-E 3 则不然,它折叠到 ChatGPT 中,以便用户可以输入对话命令并获取与其描述相匹配的图像。

 

Listen Up

古腾堡计划开放有声读物收藏

aaa

腾堡项目是最古老的数字图书馆,成立于 1971 年,旨在让电子书更易于访问。但首席执行官格雷格·纽比 (Greg Newby) 表示,它“在创作或分发方面都表现不佳”。因此,微软和麻省理工学院联手打造了开放有声读物合集,利用文本转语音技术将 5,000 本书转变成免费的、综合叙述的有声读物,现在可以在 Spotify 上购买。为该项目提供支持的软件也免费发布。

 

打破节拍

音频震动

aaa

最大的摇滚乐队之一最近达成协议,在广告中使用其 1970 年代的热门歌曲时,其成员欣喜若狂。有一个问题:广告制作人只想要乐器,而乐队拥有的只是最终的混音。因此,摇滚乐队的团队联系了 AudioShake,该公司的人工智能程序可以隔离预先录制的音频元素,将其分解为各个组成部分。“我们使音频具有交互性和可编辑性,并能够推动这些真正实用的用途,帮助艺术家赚钱,”联合创始人兼首席执行官杰西卡·鲍威尔说。

 

重新思考智能手机

人道爱品

aaa

《时代》

创立 Humane* 的两位前苹果高管设想了一个没有屏幕的未来,而 Ai Pin 是他们迈出的第一步。一旦轻巧的 Humane Ai Pin 通过磁性吸附到您的衣服上,它就成为您的人工智能个人助理。该设备结合使用专有软件和 OpenAI 的 GPT,让您可以完成各种操作,从提出复杂的问题到拨打电话和发送短信,所有这些都只需您的声音即可完成。同时,内置摄像头可以识别事物并提供上下文信息,例如食物的卡路里估算。每当 Pin 的摄像头、麦克风或输入传感器处于活动状态时,名为“信任灯”的显着隐私指示灯就会亮起,以确保周围的每个人都知道它何时正在收听或录音。如果您需要视觉效果,微型投影仪可以将它们直接投射到您伸出的手掌上。该图钉计划于 11 月 9 日推出。

*(Humane 的投资者包括《时代》杂志联合主席兼所有者马克·贝尼奥夫和林恩·贝尼奥夫)

你觉得哪个 AI 发明最吸引人?

时代周刊评出的2023 年度 十大AI 发明!