激发新一代科学和医学的发现

人工智能可以帮助残疾人

比如这个故事:
评级不可用
目前为止喜欢的
埃里克·布斯90岁的祖母来看他时, 她的听力已经严重恶化,即使戴上助听器, 她很难理解人们在说什么. 他看着她靠近说话的人,试图读懂他们的唇语, 努力理解所说的话. 当不止一个说话者参与其中时,她经常会忘记谈话内容.

后来,Eric——美光的云计算高级业务开发经理——有了一个主意. 他的祖母有一部智能手机,所以为什么不让它为她“倾听”呢? 他打开了她的笔记应用程序, 按下麦克风按钮, 并向她展示了它是如何将他的演讲转录成屏幕上的文字的.

“她太兴奋了,笑得合不拢嘴. 现在她能够参与到过去无法参与的对话中,”他说. “这就是这项技术如何真正改善有语言的人的生活质量, 语言及听力障碍.”

将语音转换为文本的技术可能看起来很简单,很容易被忽视,但这是一个复杂的过程,需要几十年的时间才能发展到今天的水平.

快速发展的技术

自从第一个语音识别(SR)设备出现以来,已经有很长时间了, Audrey, debuted. 贝尔实验室在1962年推出了奥黛丽. 这台六英尺高的计算机只能识别个位数. 而不是生成文本, 它闪烁的灯与说出的数字相对应——闪烁九次代表“九”这个词,例如:. 

甚至在几年前, SR技术不是很友好:经常不准确, 即使是最轻微的环境声音也无法过滤掉, 转录缓慢. SR要真正发挥作用还有很长的路要走.

Today, 人工智能的进步使SR成为可能, 虚拟助手技术, 5G蜂窝技术, 和记忆, 存储和计算机处理. 这使我们能够做许多以前做不到的事情:用我们从未说过的语言进行交流, 几乎立即转录长录音, 只要对着空气说几句话,我们想要的几乎任何东西都会被送到家门口.

现在,生成式人工智能正在进一步提升这项技术. 而语音识别则将音频解析为文本, 生成式人工智能处理文本以真正理解其含义. Not just, 歌词是什么?? 但是,这些话是什么意思? 这些文字在问问题吗? 如果有,答案是什么?

这种类型的机器学习可以创建文本, video, images, 计算机代码和其他内容, 基于用户提示或对话. 基于语音识别的生成式人工智能将学习提升到了一个新的水平, 开启了这项技术进一步帮助有语言或听力障碍的人的可能性.

而灵活的语音识别吸收的语言可能不遵循正常的语音模式, 生成式人工智能和自然语言处理(NLP)可以理解它,并将其转化为相关的建议. 这个过程使整体的,高度个性化的语言治疗成为可能.

埃里克的女儿也参加了语言治疗, 所以他对所需的时间和精力有第一手的了解. 这些经历激励他报名参加爱达荷州博伊西州立大学的博士课程,研究技术如何帮助有语言障碍的儿童.

在语言治疗中, 我们过去认为,治疗师会给学生提供阅读内容,然后用一个工具来评分他们在发音和发音方面的表现,埃里克解释道。. “但有了生成式人工智能,就有可能出现一种能够处理整个过程的工具. 它擅长识别模式, 所以它可以判断一个学生是否, 例如, 总是发错o的音.”

大型语言模型

直到最近, 语音识别意味着你需要一个拥有大量内存的大型服务器, 所有收集到的数据都必须上传到云端. 现在,你的手机内置了语音识别功能. 计算变得更快了, 内存变快了, 以前的数据中心流程现在在你的手机上.

很快,生成式人工智能过程也将出现在你的手机或其他终端设备上. 因为人工智能模型的训练过程不仅仅是制作更复杂的模型, 还可以简化它们,以便在手机或PC等终端设备上工作. 随着这些大型语言模型的增长, 在云环境之外进行培训是不可能的. 但是,一旦你对它进行训练,然后进行简化,它就可以移动到终端设备上.

在过去的几年里,大型语言模型取得了巨大的进步:

“这些模型是生成式人工智能聊天机器人和高级搜索功能的关键,”埃里克说. “大型语言模型有数万亿个参数. 几年前,一万亿参数是不可想象的——它无法被处理. 今天,一万亿是基准. 当然,模型越大,它就越智能. 这正是驱动计算和内存需求的原因.”

自然语言处理和生成式人工智能需要强大的大型语言模型训练, 参数越多, 需要更多的内存(参见图1).)

 
Figure 1

为了解决这些不断扩展的模型,迁移学习变得越来越流行. 这是在给定环境中使用大量数据训练模型的思想, 然后对该模型中的参数进行微调,使其适用于具有较小数据集的另一个上下文中. 假设大数据集是成人语言,小数据集是儿童语言. 迁移学习为你提供了一个对两者都准确的模型. 如果你试着训练一个主要是成人语言的模型,其中也有一些儿童语言, 那就不那么准确了. 在一个上下文中,在一个健壮的数据集上训练数据的组合, 然后将其移动到另一个上下文中,并使用更少的数据对其进行微调,这是非常有效的. 埃里克在他的论文中记录了很多这方面的进展, 评估和改进儿童导向的自动语音识别.

神经网络的预训练也遵循同样的思路. (ChatGPT™中的“P”代表预训练.)这也是沙巴体育安卓版下载在一个任务或数据集上训练模型, 然后使用这些参数在不同的任务或数据集上训练另一个模型. 对于ChatGPT, 例如, 该模型已经在来自互联网的大量会话数据上进行了预训练,因此它可以回答一般问题, 然后,它根据从提示接收到的附加上下文适应当前对话. 这给了模型一个良好的开端,而不是从头开始. 现在您有了一个具有少量数据的健壮模型.

如今,许多人工智能研究人员都专注于生成式人工智能. 这不仅仅是因为ChatGPT的热议, 这也是因为它在医疗保健和其他行业的潜在应用.

帮助那些最需要帮助的人

在美国有超过一百万的儿童.S. 在学校接受言语和语言障碍的专业帮助 美国语言听力协会. Overall, 8%的儿童有语言迟缓或残疾埃里克说.

“你不能在公开市场上买到一套针对儿童的语言治疗技术,” he says. “它不存在.他说,这项技术是必要的,尤其是对低收入家庭的孩子. 对儿童进行评估至少需要两个小时埃里克说, 但政府项目可能只支付30分钟的费用.

“很多占用治疗师时间的事情都可以通过电脑来完成,这样治疗师就可以腾出时间来做更长期的计划和更集中的治疗疗程,” he says.

有学习障碍的儿童,如诵读困难症,也可以从将他们的口语转录成文本中受益, 根据学习障碍资源基金会. 比如巧妙地使用“对话转文本”来帮助埃里克的祖母加入对话, 这种基础人工智能技术有许多未开发和无法想象的用例.

推动生成式AI和SR

Today, 美光的密度越来越大, 更快的内存和存储使得语言处理可以直接在手机上进行,而不是在云端, 节省数据传输时间.

为这些端点设备供电, 美光的低功耗双数据速率5X (LPDDR5X)内存提供了电源效率和性能的平衡,实现了无缝的用户体验. LPDDR5X提供最快,最先进的移动存储器,峰值速度为8.每秒533千兆比特(Gbps),比上一代快33%. LPDDR5X的速度和带宽对于拥有强大的生成式人工智能至关重要.

生成式人工智能, SR越来越接近于像人类大脑一样快速准确地工作. 但是,要实现这一目标仍然存在巨大的障碍, 尤其是处理儿童的语言, accents, 对于有听力或语言障碍的人. Eric正在从事的项目可以真正改变生成式人工智能技术丰富所有人生活的方式.

但生成式人工智能正在使用深度学习从越来越自然的语音中生成文本——更像人类的语音. 在过去, 人工智能模型擅长于吸收大量数据, 从诊断的角度识别模式并确定根本原因. Today, 生成式人工智能“读取”文本,并使用该数据从人类交流中做出上下文推断. 从本质上讲,这就是“训练”本身. To do so, 它需要访问和同时吸收大量数据的能力, 从大量的记忆中提取以确定适当的反应. 美光技术正在使这些进步成为可能.

美光的高密度DDR5 DRAM模块和多tb的SSD存储能够提供在数据中心训练生成式人工智能模型所需的速度和容量. 新发布的 HBM3E 进一步提高性能,在超过1的情况下提供50%以上的容量.每秒2太字节的带宽,可以将数万亿个参数人工智能模型的训练时间减少30%以上. 随着这些技术变得更快、更准确,更多的人可以“说话”并被听到.

“在不久的将来,我们将看到生成式人工智能和SR技术在性能上的颠覆性飞跃,埃里克预测道. “看到这项技术丰富了人们的生活,我真的很酷.” 
+
+