36氪首发|「整数智能」获数千万Pre A轮融资AI大模型重构数据标注坐蓐成果
2023-06-08 159

  36氪获悉,AI数据公司「整数智能」于近期告终了数千万Pre A轮融资,本轮由翊宙资本、藕舫天使、安益盛银、图灵启真投资,翊尚资本为独家融资照拂。

  据悉,本轮融资厉浸用于智能数据工程平台(ABAVA Platform)的迭代升级,崭新的ABAVA平台将集成AI大模型+小模型,杀青高效自愿化数据标注。其余,整数智能还将集成RLHF(人类反馈加强研习)数据供职才具,为大措辞模型(LLM)的研发与迭代需要盘算。

  整数智能发展于浙江大学带动机创新身手探讨院,尽力于为人工智能企业及科研院所需要一站式数据收拾效劳。其需要的智能数据工程平台(ABAVA Platform)与数据集构修供职(ACE Service),也许知足主动驾驶、AIGC、聪慧医疗等数十个支配场景的数据必要。

  今朝,公司已互助国内外顶级科技公司与科研机构数百家,占领知识产权数十项,屡屡插手人工智能范围的尺度与白皮书撰写。

  整数智能创立人林群书为浙江大学唆使机博士生,结纳开办人赵子健为浙江大学法学硕士生,此刻均处于休学创业中。

  我申报36氪,当下数据标注正在从人力茂密型向自愿化标注过渡。以Tesla为例,在2018年,一段clip数据须要牺牲500小时的人工标注。随着Tesla原委对数据引擎及主动化标注才略的主旨建设,到2021年,一段clip数据的标注只需要耗费0.5小时的算力标注+0.1小时的人工标注即可。

  针对人工智能行业生长的大趋势,整数智能推出了智能数据工程平台(ABAVA Platfom),对人工智能所需的数据标注对象套件举办了全域掩瞒,蕴涵图像、点云、文本、音频等多模态标注器材。

  林群书显露,行业眼前的自愿化标注,更多依靠算法工程师打磨特定场景的自愿化标注算法,通用性有限。跨行业或跨场景时,倘使算法主动化标注的精度着陆,会必要工程师耗费分外的技术精力,对自愿化标注算法举办手动跳级。

  而ABAVA平台,其内置的AI Power体系过程连络AI大模型与小模型各自的益处,可能速快在新行业或新场景举行自动化标注,况且连续进步自愿化标注的精度,使得取得高质量数据的技巧资本与人力本钱一连颓唐。

  简略来谈便是,可以跨越不同行业、不同场景完成自愿化标注;同时还能诳骗标注好的数据来迭代算法模型。“掌管本领越长,浸淀数据越多,主动化标注水准也就越高。”林群书说说。

  此外,整数智能针对主动驾驶场景,推出了4D标注东西,即在三维空间数据的泉源上叠加技艺维度的序列音书实行场景浸筑,此刻已能支持视觉浸筑与点云重建。据林群书介绍,其4D标注东西不妨把正本必要数十帧的标注劳动,极限压缩到一帧来进行,将数据标注的成就提升数十倍。

  4D标注器材的研发难点在于,其一需要把握算法融关多帧数据举行场景浸筑,浸修的质料尤为急急,直接教化后续的投影精度;其二在于重筑后的点云密度卓殊高,给Web端点云工具的职能优化带来高大挑拨;其三在于告终标注后的终于怎样注意的投影回2D空间,须要做大批的算法优化。

  总的来看,林群书叙述36氪,人工智能时间得回「数据能源」将履历人工标注、自愿标注、关成数据三个发展阶段。今朝整数智能或许原委主动标注大幅颓废获取数据的资本。

  随着AI大模型时代到来,整数智能也在探索合成数据的模式。譬喻原委AI合成数据,可以管制自愿驾驶缺乏Cornercase场景数据的题目。

  整数智能感应,AI大模型时期,数据销耗的速度将远宏壮于数据自然产生的速度,通过闭成数据的技术途径,可以带来「数据能源」得到大局的一次革命。“AIGC(即AI天赋内容,如AI天分图片)的技能爆炸,技能收获和结果会远远逾越自愿化标注。”