请选择 进入手机版 | 继续访问电脑版
  社区导航   互动南宁   国内新闻  机器编辑肇始的“GoogleNews”是怎么炼成的? ...
查看: 7019|回复: 0

机器编辑肇始的“GoogleNews”是怎么炼成的?

[复制链接]

9

主题

37

帖子

89

积分

注册会员

Rank: 2

积分
89
发表于 17 天前 | 显示全部楼层 |阅读模式
    机器编辑肇始的“GoogleNews”是怎么炼成的?

    一、新闻的手动选编

    就新闻行业的这些手动化浪潮而言,影响最大的初期实践大约要算“GoogleNews”了。Google新闻是一个由计算机生成的新闻网站。它汇集了来自中国内地超过1000多个英文新闻源的新闻资源,并将相像的报导组合在一起,按照读者的个人喜好进行显示。

    Google新闻所开创的是新闻的机器选编,还不是本文所要注重阐述的新闻的机器写作。但写作和编辑同为新闻内容生产的两个关键环节。在“Google新闻”的手动选编推荐中,关键是以下几点:

    1.新闻来源:来自我国台湾1000多个英文新闻源。新闻来源的选择和把关,在很大程度上决定了聚合推荐的新闻的丰富和多样性程度;这实际上是“Google新闻”选择和推荐的样本框,决定了什么新闻有机会被推荐。

    2.推荐逻辑:即其算法(algorithm)。值得强调的是,StoryRank和PageRank类似,其对一篇报导的推荐和选择,并不是仅仅通过剖析报导本身的内容,而是注重剖析报导在网上的受关注程度:被什么网站发布、转发的多少和频度、在网站的哪些位置发布等,借此来“计算”有关新闻的价值或重要程度。

    3.推荐而不提供:从新闻作品版权等角度考虑,“Google新闻”只是提供各类新闻不同的新闻来源,有点“述而不作”的气味,具体的新闻则仍须要到各来源网站去阅读。Google新闻的这一做法最大限度地让它避开了各类版权纠纷,换言之,它把自己定位为自己所定义的诸多新闻源的精华索引页。

    作为机器编辑发轫的“GoogleNews”,其所开创的基于所选择的样本框进行新闻手动选择和推荐、排序的方式,对各大新闻网站、新闻门户和其他搜索引擎带来了很大的冲击和影响,包括百度新闻等随大流者不少。值得强调的是,在“GoogleNews”最初推出之时,还是Web1.0时代。10年过去,互联网非常是联通互联的发展,促使新闻生产和消费的格局又有了很大的变化。这其中最大的变化就是社会化媒体的盛行,以及基于消费端的用户偏好,被列入到新闻推荐的算法考虑中,因而可以为用户推荐愈发个性化、定制化、动态化的新闻产品和内容。事实上,以“今日头条”等为代表的新闻顾客端,都是当年“GoogleNews”所开创的机器新闻编辑产品的变种和升级。

    无论是“GoogleNews”也好,“今日头条”也好,这类产品的出现和风行新闻稿的写作模板,阐明了这样一种趋势,即机器学习、深度学习正在改变包括新闻生产在内的众多之前依赖人力、脑力密集的产业和行业的生态和业态。从工业革命开始,人类的手动化梦想就仍然在加速膨胀,企图在一切有可能把人力解放下来的领域,代之以无论是硬件还是软件意义上的“机器”的协助甚至完全手动化。

    二、机器新闻写作:基于算法的新闻内容生产

    编辑和写作,就其所须要的人工智能程度而言,似乎写作更具挑战性。在机器新闻生产的语境中,机器编辑一般主要指对已有新闻作品的选择和推荐、聚合,极少涉及对成稿的更改;而机器新闻写作,则仍是不折不扣的从无到有的“创作”。

    把机器或则程序能做的交给机器和程序,因而把人力解放下来,去从事具有创新要求和须要发挥想像力的工作,这是自工业革命以来手动化革命的基本理念。关于机器新闻写作,路透社的想法是,这将让记者“能做回新闻的本员工作,而不是疏于数据处理”,为此,机器新闻写作的引入,并不意味着记者编辑工种的衰亡。

    但其实并非所有类型的新闻都适宜机器写作,起码目前来看是这么。就路透社的实践而言,其此前早已在用手动化手段提供各类数据式的体育“报道”,但此前主要是整合、综合关于运动员、赛事的各类实时数据,而这次的企业季度经营状况报导则是不折不扣的新闻报导了。虽然这么,可以看出,适宜通过机器或算法进行的新闻写作,通常是以各类数据、图表的引用和剖析为基础的硬新闻,新闻的主体来始于对数据的引用、解释和剖析,具有显著的“数据处理”色彩,可看作是目前方兴未艾的“数据新闻学”的一个分支。

    三、机器手动写作的工作机理

    下边曾经述AutomatedInsights公司开发并早已被众多品牌公司,包括像路透社这样的通信社采用的手动写作平台Wordsmith为例,简单介绍一下其工作原理与过程。

    Wordsmith平台的任何一篇“自动生成”的作品的写作流程分以下几个步骤:

    1.获取数据。首先须要消化关于所服务的顾客,即报导对象的各类方式的数据和资料,包括以APIs、XML、CSVs以及各类字处理图表等方式的数据,以及第三方(如GoogleAnalytics)提供的相关顾客的各类数据(营运、业绩、报道、评价、引述等)。作为一个以数据处理为基础工作的写作平台,Wordsmith可以处理“几乎任何方式或格式的数据”。

    2.剖析数据。这儿涉及到对各类数据的解析以及内在关联的描绘,并把它们置于长达性的演化背景中来进行评析。

    3.提炼观点(identifyinsights)。通过对目标顾客各类数据中所呈现的模式和趋势的阐明,并把它们划入到更大的行业或社会、国家的背景中来剖析其意义,因而通过这样的参考和比对,得出一些具有可操作性的意见和建议。

    4.结构和格式(structure&format)。Wordsmith平台须要用其自然语言生成功能对此前的剖析和提炼得到的观点进行故事化表述,并根据须要生成各类方式的文本:长文、短新闻、可视化图表为主的内容、推文、标题编者按等等。

    5.出版。Wordsmith平台才能将所生成的文章,通过多种方法,实时发布到顾客指定的平台上。

    综合我们对机器新闻各类软件和平台的了解,迄今为止,机器新闻或内容写作,使用最广泛的四大领域是财经、体育、气象地质和健康。支撑例如Wordsmith这样的手动写作平台有效工作的基础性系统,就是直接来自所报导的组织或个体的各类检测资料、第三方提供的各类检测资料,以及联接到动态更新的云端数据库。没有大数据采集和挖掘、分析系统的支撑,机器手动新闻写作就成了无源之水、无本之木。社会的信息传播基础设施和环境发展到明天,随着各类随身通信设备,如智能手机和各类可穿戴式健康检测设备的普及,加上无处不在的上网条件和实时定位系统,致使我们可以对所关注的个体、群组、组织、行业等,进行多角度的信息搜集和描述。社会正显得越来越透明,这是机器手动内容写作风行的前提。

    四、机器新闻与新闻业的重新定义

    机器稿件生产系统的出现,将对新闻传播行业带来深刻而长远的变化,这些影响首先彰显在对新闻传播行业的重新定义。新闻传播行业的核心是内容的生产与传播。机器内容生产的出现和盛行,对于新闻传播行业的影响,主要是内容的生产和编辑、出版或发布、推送方面。

    首先新闻稿的写作模板,在一些综合性通信社或媒体中,一线内容生产的总体格局可能会发生重大变化。在前述财经、气象/地质、体育、健康等领域的常规稿件的生产中,传统的记者写稿环节,可能会重构为记者“指导”下的机器写稿和记者/编辑进行人工更改把关两个环节。记者或编辑将主要通过基于算法的内容管理系统(即CMS)进行初审把关和稿件推荐。

    其次,稿件生产会越来越依赖于媒体自己建设的数据库以及实时的基于大数据的数据挖掘工作,这意味着在常规新闻写作中,传统的记者现场专访的重要性和必要性可能会有所增加,而中介化在场感的获得和营造将成为关键。

    第三,稿件内容的发布和推送将会愈发个性化、定制化,不同新闻终端消费者收到的内容可能会有不同的版本。基于对内容消费者消费偏好和方法的剖析,在新闻发布和推送时作相应的个性化剪裁,是完全可以做到的。

    可以看出,新闻传播行业正在快速变迁中,行业的信息技术浓度会越来越重;与此同时,往年从事软硬件平台设计和开发的一些技术公司,将不可防止地“跨界”涉足内容服务行业,新闻传播中信息服务业的比重会进一步加强。因为大量内容都加上了“时间戳”和地理位置信息,新闻和非新闻类内容的界限,也将愈加模糊。

    行业内涵和外延的变化,必然带来新闻传播学科的内涵和外延的变化,这直接彰显在其学科的课程体系设置中。近些年来,国外外不少新闻传播高校,在“大传播”理念下,纷纷强化了新媒体方面的课程内容比重,包括大量的信息和数据处理技术和信息艺术设计方面的课程。传统的新闻传播、信息科学、艺术设计学科日渐交融。

    由此也必然带来新闻传播从业者核心素质要求的变化。手动新闻生产的不断改进和复杂化,将不断挤压新闻业中这些劳动密集型的工作或新闻生产环节,让那些工作或生产环节,就工作量和所耗费的时间而言,主要通过机器即可完成,人工的干预和关键决策,本质上仍会起到主导作用,但从工作量上而言,不再须要在创造性要求高度不均的各个环节都同等付出,而只需在一些关键环节上介入即可。

    记者和编辑,由此须要重新定位自己工作的核心价值究竟在那里,时时考虑自己所从事的工作,是否具有一定智能的软件或机器人也能胜任。新闻从业者的不可取代性,从长远来看,必然来自其个性化特色的内容创作和创新编排、设计、内容传播和推送策略的拟定等,而不是其他。

    更多资讯,请关注0771,广西门户网。
回复

使用道具 举报

快速回复 返回顶部 返回列表