那个nosql可以做搜索,nosql如何查询

搜索引擎可以基于nosql搜索吗

网页中的数据大多数是存储于数据库中，知道库连接、数据结构和数据展示的网页理论上是可以的。

我们提供的服务有：成都做网站、网站制作、微信公众号开发、网站优化、网站认证、金门ssl等。为上1000+企事业单位解决了网站和推广的问题。提供周到的售前咨询和贴心的售后服务，是有科学管理、有技术的金门网站制作公司

但是程序设计中应该是没有设计存储库中数据对应的网址，所以，你可能搜索到内容，但是无法展示给客户。（或者将搜索的结果在自己的网站中以一定的格式显示）

什么是nosql非关系型数据库

对此，前Google工程师，Milo（本地商店搜索引擎）创始人Ted Dziuba最近发表标题惊人的博客“I Can't Wait for NoSQL to Die”，对NoSQL的适用范围进行了分析。他认为，

NoSQL也会带来一连串的新问题，并不会成为主流，无法取代关系型数据库。

他的理由是：Cassandra等NoSQL数据库在使用上并不方便，比如，修改column family定义时就需要重启。而且NoSQL更适合Google那样的规模，而一般的互联网公司都不是Google，早早地去考虑Google那样的规模的可扩展性，纯粹是浪费时间，存在巨大的商业风险。

他还透露，即使在Google，AdWords这样的关键产品也是基于MySQL实现的。

他在文中最后表示，NoSQL当然死不了，但是

它最终会被边缘化，就像Rails被NoSQL边缘化一样

Dziuba的文章因为言辞激烈，在社区里引起了强烈反应。

SQL数据库阵营赞同者大有人在。craigslist工程师、著名的MySQL专家Jeremy Zawodny表示，在读此文的时候，不时会心一笑。他说，

NoSQL运动只是软件不断进化进程中的正常现象

。关系型数据库也会继续发展，MySQL社区不断推出的XtraDB或InnoDB插件, PBXT, Drizzle都是证据。各种技术竞争的结果是，我们获得了更多解决问题的选择。

drizzle项目开发者Eric Day也表示，NoSQL有很多值得学习的，但是目前大部分实际项目的最佳选择还是关系型数据库。

NoSQL阵营当然不会坐视不理，Cassandra项目组的Eric Evans表示，Dziuba提到Cassandra修改column family定义的问题其实很容易解决。而且，NoSQL并不是要取代MySQL，事实上Twitter仍然在用MySQL。如果关系型数据库能够承担负荷，那就用好了；如果不行，请考虑NoSQL。

而德国知名博客Code Monkeyism则嘲笑Dziuba看起来并没有用MySQL做过真实项目，因为MySQL如果没有memcache，基本上无法应付网站项目。他认为，NoSQL将使SQL数据库边缘化，而且一个重要理由恰恰是可以节省DBA的开销。

digg的前任首席架构师现在也在创业的Joe Stump说，自己现在的创业项目就是用NoSQL，而且列举了一系列问题挑战SQL阵营。

nosql数据库有哪些

1. CouchDB

所用语言： Erlang

特点：DB一致性，易于使用

使用许可： Apache

协议： HTTP/REST

双向数据复制，

持续进行或临时处理，

处理时带冲突检查，

因此，采用的是master-master复制（见编注2）

MVCC – 写操作不阻塞读操作

可保存文件之前的版本

Crash-only（可靠的）设计

需要不时地进行数据压缩

视图：嵌入式映射/减少

格式化视图：列表显示

支持进行服务器端文档验证

支持认证

根据变化实时更新

支持附件处理

因此， CouchApps（独立的 js应用程序）

需要 jQuery程序库

最佳应用场景：适用于数据变化较少，执行预定义查询，进行数据统计的应用程序。适用于需要提供数据版本支持的应用程序。

例如： CRM、CMS系统。 master-master复制对于多站点部署是非常有用的。

（编注2：master-master复制：是一种数据库同步方法，允许数据在一组计算机之间共享数据，并且可以通过小组中任意成员在组内进行数据更新。）

2. Redis

所用语言：C/C++

特点：运行异常快

使用许可： BSD

协议：类 Telnet

有硬盘存储支持的内存数据库，

但自2.0版本以后可以将数据交换到硬盘（注意， 2.4以后版本不支持该特性！）

Master-slave复制（见编注3）

虽然采用简单数据或以键值索引的哈希表，但也支持复杂操作，例如 ZREVRANGEBYSCORE。

INCR co （适合计算极限值或统计数据）

支持 sets（同时也支持 union/diff/inter）

支持列表（同时也支持队列；阻塞式 pop操作）

支持哈希表（带有多个域的对象）

支持排序 sets（高得分表，适用于范围查询）

Redis支持事务

支持将数据设置成过期数据（类似快速缓冲区设计）

Pub/Sub允许用户实现消息机制

最佳应用场景：适用于数据变化快且数据库大小可遇见（适合内存容量）的应用程序。

例如：股票价格、数据分析、实时数据搜集、实时通讯。

（编注3：Master-slave复制：如果同一时刻只有一台服务器处理所有的复制请求，这被称为

Master-slave复制，通常应用在需要提供高可用性的服务器集群。）

3. MongoDB

所用语言：C++

特点：保留了SQL一些友好的特性（查询，索引）。

使用许可： AGPL（发起者： Apache）

协议： Custom, binary（ BSON）

Master/slave复制（支持自动错误恢复，使用 sets 复制）

内建分片机制

支持 javascript表达式查询

可在服务器端执行任意的 javascript函数

update-in-place支持比CouchDB更好

在数据存储时采用内存到文件映射

对性能的关注超过对功能的要求

建议最好打开日志功能（参数 –journal）

在32位操作系统上，数据库大小限制在约2.5Gb

空数据库大约占 192Mb

采用 GridFS存储大数据或元数据（不是真正的文件系统）

最佳应用场景：适用于需要动态查询支持；需要使用索引而不是 map/reduce功能；需要对大数据库有性能要求；需要使用

CouchDB但因为数据改变太频繁而占满内存的应用程序。

例如：你本打算采用 MySQL或 PostgreSQL，但因为它们本身自带的预定义栏让你望而却步。

4. Riak

所用语言：Erlang和C，以及一些Javascript

特点：具备容错能力

使用许可： Apache

协议： HTTP/REST或者 custom binary

可调节的分发及复制(N, R, W)

用 JavaScript or Erlang在操作前或操作后进行验证和安全支持。

使用JavaScript或Erlang进行 Map/reduce

连接及连接遍历：可作为图形数据库使用

索引：输入元数据进行搜索（1.0版本即将支持）

大数据对象支持（ Luwak）

提供“开源”和“企业”两个版本

全文本搜索，索引，通过 Riak搜索服务器查询（ beta版）

支持Masterless多站点复制及商业许可的 SNMP监控

最佳应用场景：适用于想使用类似 Cassandra（类似Dynamo）数据库但无法处理

bloat及复杂性的情况。适用于你打算做多站点复制，但又需要对单个站点的扩展性，可用性及出错处理有要求的情况。

例如：销售数据搜集，工厂控制系统；对宕机时间有严格要求；可以作为易于更新的 web服务器使用。

5. Membase

所用语言： Erlang和C

特点：兼容 Memcache，但同时兼具持久化和支持集群

使用许可： Apache 2.0

协议：分布式缓存及扩展

非常快速（200k+/秒），通过键值索引数据

可持久化存储到硬盘

所有节点都是唯一的（ master-master复制）

在内存中同样支持类似分布式缓存的缓存单元

写数据时通过去除重复数据来减少 IO

提供非常好的集群管理 web界面

更新软件时软无需停止数据库服务

支持连接池和多路复用的连接代理

最佳应用场景：适用于需要低延迟数据访问，高并发支持以及高可用性的应用程序

例如：低延迟数据访问比如以广告为目标的应用，高并发的 web 应用比如网络游戏（例如 Zynga）

6. Neo4j

所用语言： Java

特点：基于关系的图形数据库

使用许可： GPL，其中一些特性使用 AGPL/商业许可

协议： HTTP/REST（或嵌入在 Java中）

可独立使用或嵌入到 Java应用程序

图形的节点和边都可以带有元数据

很好的自带web管理功能

使用多种算法支持路径搜索

使用键值和关系进行索引

为读操作进行优化

支持事务（用 Java api）

使用 Gremlin图形遍历语言

支持 Groovy脚本

支持在线备份，高级监控及高可靠性支持使用 AGPL/商业许可

最佳应用场景：适用于图形一类数据。这是 Neo4j与其他nosql数据库的最显著区别

例如：社会关系，公共交通网络，地图及网络拓谱

7. Cassandra

所用语言： Java

特点：对大型表格和 Dynamo支持得最好

使用许可： Apache

协议： Custom, binary (节约型)

可调节的分发及复制(N, R, W)

支持以某个范围的键值通过列查询

类似大表格的功能：列，某个特性的列集合

写操作比读操作更快

基于 Apache分布式平台尽可能地 Map/reduce

我承认对 Cassandra有偏见，一部分是因为它本身的臃肿和复杂性，也因为 Java的问题（配置，出现异常，等等）

最佳应用场景：当使用写操作多过读操作（记录日志）如果每个系统组建都必须用 Java编写（没有人因为选用

Apache的软件被解雇）

例如：银行业，金融业（虽然对于金融交易不是必须的，但这些产业对数据库的要求会比它们更大）写比读更快，所以一个自然的特性就是实时数据分析

8. HBase

（配合 ghshephard使用）

所用语言： Java

特点：支持数十亿行X上百万列

使用许可： Apache

协议：HTTP/REST （支持 Thrift，见编注4）

在 BigTable之后建模

采用分布式架构 Map/reduce

对实时查询进行优化

高性能 Thrift网关

通过在server端扫描及过滤实现对查询操作预判

支持 XML, Protobuf, 和binary的HTTP

Cascading, hive, and pig source and sink modules

基于 Jruby（ JIRB）的shell

对配置改变和较小的升级都会重新回滚

不会出现单点故障

堪比MySQL的随机访问性能

最佳应用场景：适用于偏好BigTable:)并且需要对大数据进行随机、实时访问的场合。

例如： Facebook消息数据库（更多通用的用例即将出现）

编注4：Thrift

是一种接口定义语言，为多种其他语言提供定义和创建服务，由Facebook开发并开源。

当然，所有的系统都不只具有上面列出的这些特性。这里我仅仅根据自己的观点列出一些我认为的重要特性。与此同时，技术进步是飞速的，所以上述的内容肯定需要不断更新。我会尽我所能地更新这个列表。

高性能 NoSQL

关系数据库经过几十年的发展，已经非常成熟，但同时也存在不足：

表结构是强约束的，业务变更时扩充很麻烦。

如果对大数据量的表进行统计运算，I/O会很高，因为即使只针对某列进行运算，也需要将整行数据读入内存。

全文搜索只能使用 Like 进行整表扫描，性能非常低。

针对这些不足，产生了不同的 NoSQL 解决方案，在某些场景下比关系数据库更有优势，但同时也牺牲了某些特性，所以不能片面的迷信某种方案，应将其作为 SQL 的有利补充。

NoSQL != No SQL，而是：

NoSQL = Not Only SQL

典型的 NoSQL 方案分为4类：

Redis 是典型，其 value 是具体的数据结构，包括 string, hash, list, set, sorted set, bitmap, hyperloglog，常被称为数据结构服务器。

以 list 为例：

LPOP key 是移除并返回队列左边的第一个元素。

如果用关系数据库就比较麻烦了，需要操作：

Redis 的缺点主要体现在不支持完成的ACID事务，只能保证隔离性和一致性，无法保证原子性和持久性。

最大的特点是 no-schema，无需在使用前定义字段，读取一个不存在的字段也不会导致语法错误。

特点：

以电商为例，不同商品的属性差异很大，如冰箱和电脑，这种差异性在关系数据库中会有很大的麻烦，而使用文档数据库则非常方便。

文档数据库的主要缺点：

关系数据库是按行来存储的，列式数据库是按照列来存储数据。

按行存储的优势：

在某些场景下，这些优势就成为劣势了，例如，计算超重人员的数据，只需要读取体重这一列进行统计即可，但行式存储会将整行数据读取到内存中，很浪费。

而列式存储中，只需要读取体重这列的数据即可，I/O 将大大减少。

除了节省I/O，列式存储还有更高的压缩比，可以节省存储空间。普通行式数据库的压缩比在 3:1 到 5:1 左右，列式数据库在 8:1 到 30:1，因为单个列的数据相似度更高。

列式存储的随机写效率远低于行式存储，因为行式存储时同一行多个列都存储在连续空间中，而列式存储将不同列存储在不连续的空间。

一般将列式存储应用在离线大数据分析统计场景，因为这时主要针对部分列进行操作，而且数据写入后无须更新。

关系数据库通过索引进行快速查询，但在全文搜索的情景下，索引就不够了，因为：

假设有一个交友网站，信息表如下：

需要匹配性别、地点、语言列。

需要匹配性别、地点、爱好列。

实际搜索中，各种排列组合非常多，关系数据库很难支持。

全文搜索引擎是使用倒排索引技术，建立单词到文档的索引，例如上面的表信息建立倒排索引：

所以特别适合根据关键词来查询文档内容。

上面介绍了几种典型的NoSQL方案，及各自的适用场景和特点，您可以根据实际需求进行选择。

为什么选择NoSQL数据库如此困难

传统观念中 NoSQL数据库非常适合某些数据类型，如：非关系数据源。同时，NoSQL被吹捧为最适合Web应用程序的优秀平台。然而他适合大多数数据，特别是web应用程序的数据是相关型。那么，这是否可以给你一个坚持使用RDMS的理由呢？也不一定，即使很困难，我们还是要做出选择。

评估NoSQL是一个很茅盾的理论，一些人认为，应该将所有文档数据存储在一个文档中，做链接代码就是亵渎神明。另外一部分人认为，存储应用文档，加入代码，才是合理选择。与此同时，不同的数据库，需要在文档中限制嵌套数据数量。有的人会鼓励文档引用。这是NoSQL数据模型的基本部分，也没有一个明确的共识。

曾经有一篇很热的帖子"Why you should never use XYZ"，我想，读到这里，一定会有人搜索这篇文章。当然，这种文章各式各样，太过于笼统的标题也没什么帮助。毫无疑问，会有人会搜索这个文章，然后再找

到这个文章，进一步深入，找到该文章的方法远比成功（理解问题）的故事多。很难知道谁提供了一个有效的技术问题，谁又误读了这个问题（或者缺少证据证明其观点）。

有大量选择，RDBMS的世界，选择就很容易。你有4或5个目标，大家工作方式差不多，来选择环境、预算支持的平台。对于成熟的产品，风险比较小。 NoSQL的世界，有很多数据库引擎功能选择。每一个有自己的独特优势，也有致命弱点。所以选择很难， NoSQL项目生命周期短，尝试新项目或者流行项目也会有风险。上次，我的的项目是在 CouchDB上，而现在似乎停摆了。

做出这个痛苦决定的原因是，这可能是一个案例：你需要做一大堆工作，才能知道，你做出的选择对与错。你可以实体化你的数据模型，了解他与系统的工作情况，但是，这只有你正真撞到南墙，才可以找到裂缝（答案）。以我为例，我建的应用程序是关系数据库，移动文件存储的主要因素是，需要一个无模式设计来达到我的目标。使用NoSQL 数据库存储关系型数据库并不是我们所常说的，虽然，这种事常常发生。

现在我在用 Couchbase 和 MongoDB，Mongo对我没多大吸引力，不过鉴于他非常流行，对于引起来说，很有好处。当然，很多都可以以同样的方式流行。PHP很流行，因为他的易用性，而不是因为他很好。

elasticsearch可以代替NoSQL吗

不会啊，elasticsearch是分布式的搜索系统（全文搜索），

NoSQL非关系型数据库，主要用在大数据量，高并发情景下（非事务）

文章名称：那个nosql可以做搜索,nosql如何查询
URL分享：http://abwzjs.com/article/dsijssi.html

那个nosql可以做搜索,nosql如何查询

搜索引擎可以基于nosql搜索吗

什么是nosql非关系型数据库

nosql数据库有哪些

高性能 NoSQL

为什么选择NoSQL数据库如此困难

elasticsearch可以代替NoSQL吗

其他资讯