Индекс читабельности: формула и предназначение. Что такое «Понятный русский язык» с точки зрения технологий




Индекс читабельности

Индекс удобочитаемости - мера определения сложности восприятия текста читателем. Индекс удобочитаемости может вычисляться на основе нескольких параметров: длины предложений, слов, удельного количества наиболее частотных (или редких) слов и т. д.

Индекс удобочитаемости Флеша

Наиболее популярная мера была создана Рудольфом Флешем, изначально для английского языка. Она оценивает сложность текста по следующей формуле:

Либо:

FRE = 206.835 − (1.015 × ASL) − (84.6 × ASW)

ASL - средняя длина предложения в словах (англ. average sentence length).

ASW - средняя длина слова в слогах (англ. average number of syllables per word)

Индекс по шкале FRES (Flesch Reading Ease Scale) распределяется таким образом:

100: Очень легко читается. Средняя длина предложения составляет 12 или менее слов. Нет слов из более чем двух слогов.

65: простой английский язык. Средняя длина предложения составляет от 15 до 20 слов. В среднем слова имеют 2 слога.

Для английского языка значение 90-100 соответствует лёгкому тексту для младших школьников, 60-70 - тексту, который могут читать выпускники школы, тексты с индексом 0-30 предназначены для людей с высшим образованием.

В связи с тем, что в русском языке средняя длина предложения меньше (за счет меньшего использования служебных слов, таких как артикли или вспомогательные глаголы), а слова в среднем длиннее, было предпринято несколько попыток разработать специфическую для русского языка версию меры, например, путём подгонки коэффициентов при сравнении индексов, полученных для оригинальных английских текстов и их переводов. Ниже представлен один из вариантов такой адаптации.

FRE = 206.835 − (1.3 × ASL) − (60.1 × ASW)

В целом, большинство методов оценки сложности текста на основе индексов удобочитаемости для информационно-аналитических документов на русском языке дают оценки, выходящие как за интерпретируемый диапазон значений, так и за эталонные значения. При этом получаемые результаты характеризуются высокой степенью корреляции, так как разработчики используют одну математическую модель линейной регрессии, а также однообразные параметры текста (средняя длина слова, средняя длина предложения). При этом индексы удобочитаемости не адаптированы к тестам для взрослых. У профессионала не должно возникать затруднений с пониманием многосложных слов. В конечном итоге фактором сложности выступает семантика текста и абстрактность его изложения. Индикаторы на основе индексов удобочитаемости недостаточно хорошо интерпретируются, поскольку не могут напрямую быть использованы для прогнозирования времени обработки текста тем или иным человеком.



11. Пропаганда и Public Relations – соотношение терминов.

ПР и пропаганда. Относительно пропаганды существуют два магистральных направления мнений. Согласно первому направлению, пропаганда и ПР практически не отличаются друг от друга: оба понятия означают использование определенных технологий для эффективного внедрения каких-либо тезисов в массовое сознание. Тем не менее большинство ПР-специалистов считают, что называть пропагандой их деятельность неправомерно: пропаганда допускает искажение цифр и фактов в чьих-либо интересах, в то время как ПР основывается на правдивой информации. Пропаганда имеет жесткую установку и стремится заставить людей принять некоторую точку зрения причем не интересуясь, хотят они этого или нет. ПР носят более мелкий характер и лишь предлагают людям воспользоваться некоторой информацией. А затем добровольно принять те или иные мнения и идеи. Пропаганда делает упор на одностороннее воздействие на индивида или группу, ПР в обязательном порядке предполагают налаживание механизма двусторонней связи, получение и учет встречного сигнала со стороны аудитории.

Индекс туманности Ганнинга или Фог-индекс (Fog Index) показывает уровень удобочитаемости текста.

Этот метод проверки комфорта восприятия текста назван по имени создателя Роберта Ганнинга. Вначале он предназначался для журналистов, чтобы избежать туманных формулировок в написанном. В настоящее время используется копирайтерами для определения степени простоты текста для читателей.

Индекс Ганнинга рассчитывается по формуле:

Fi = (Nws + Nwt) * 0,4
Nws - количество слов в предложении.
Nwt - количество слов в одном предложении длиной 3 и более слогов.


Исходная формула туманности Ганнинга:

Для текстов на русском языке применяется поправочный коэффициент 0,78.
Число сложных слов — слова с числом слогов больше четырёх.

Расчет определяет с точностью до класса образования, насколько читатель готов к пониманию написанного.

Приняты следующие значения Fog Index:

70 и выше - не требуется специальной подготовки;
- до 70 - среднее образование;
- до 60 - интеллектуальный уровень подготовки;
- до 30 - для понимания нужен научный уровень подготовки.

Проверив текст по данному методу на удобочитаемость, вы определите, не труден ли он для восприятия, не перегружен ли терминами, т.к. простота текста - значимый фактор его успеха. Нужно писать грамотно, со смыслом, но не забывать о «дружелюбности» к читателю.

Рассчитывается индекс так:

  • Вычленяется фрагмент текста от 100 до 200 слов.
  • Подсчитывается количество слов в предложениях. Как одно слово считаем числа и даты. Сложносочинённые предложения делим на 2 части.
  • Численность слов делим на численность предложений и получаем среднюю длину последних.
  • Учитываем число слов с 3-мя и более слогами (кроме составных слов, имён собственных, глаголов, усложнённых склонением, падежом, временем).
  • Число многосложных слов делим на общую численность слов. Получаем процент многосложных слов в фрагменте текста.
  • К полученной цифре прибавляем средний показатель длины предложения.
  • Это значение умножаем на 0,4.


Федеральный закон РФ «Об охране здоровья граждан от воздействия окружающего табачного дыма и последствий потребления табака»

Автоматический индекс удобочитаемости (Automatic Readability Index/ARI)

Этот индекс определяет удобочитаемость так: количество знаков делится на количество слов с пробелами, потом количество слов - на число предложений. По ARI тексты бывают 14 уровней удобочитаемости: первый доступен ребенку от 6 до 9 лет, последний - 14-летнему школьнику-американцу. Считается, что к моменту окончания школы выпускник должен свободно понимать тексты 12-го уровня сложности.

СТИХОТВОРЕНИЕ ПУШКИНА «ЗИМНЕЕ УТРО» ПОНЯТНО ДЛЯ ЧИТАТЕЛЕЙ 9–11 ЛЕТ


А.С.Пушкин «Зимнее утро»

Индекс Колмана - Лиау (Coleman - Liau Index)

Индекс Колмана - Лиау, так же как и ARI, учитывает среднее количество знаков и предложений на 100 слов текста. Его часто используют для оценки больших объемов текста: чтобы получить результат, не нужно делить текст на слоги, достаточно с помощью сканера выявить отдельные знаки и границы предложения. При этом полного распознавания символов не требуется.

Текст Задорнова рассчитан на подростков 12–14 лет


М.Задорнов «Умом Россию не поднять»


Простое измерение
сложности текста (Simple Measure of Gobbledygook)

Чтобы определить индекс удобочитаемости, считают число предложений в тексте и количество «сложных слов» (больше трех букв) в каждом. Главный недостаток формулы - получить относительно точный результат можно, если текст длиннее тридцати предложений.

Германа Мелвилла могут прочитать и понять дети
9–11 лет


Г.Мелвилл «Моби Дик, или Белый кит»

Формула Дейла - Челла (Dale - Chall Readability Formula)

Изначально программа ориентировалась на список из 763 слов, которые обязан понимать каждый среднестатистический американский студент к последнему году обучения. Слова, которых в этом списке нет, считаются сложными для понимания. Со временем формула совершенствовалась, и к 1995 году список слов расширился до 3 000 слов.

Текст, который вы только что прочли, доступен для понимания аудитории 15–16 лет


Текст, который вы сейчас читаете

От удаления лишних слов до анализа настроения автора.

Вот небольшая подборка полезных сервисов, которые пригодятся любому человеку, время от времени пишущему связные тексты на русском языке. Они помогут ускорить процесс редактирования и улучшить его итоговый результат.

1. Типограф Лебедева


Этот сервис обрабатывает текст так, чтобы он хорошо смотрелся внутри HTML-кода или верстки. А именно:

  • Меняет английские кавычки на русские;
  • При необходимости заменяет дефис на тире;
  • Соединяет неразрывным пробелом слова с предлогами и союзами, чтобы не было некрасивых переносов.

Подробнее о типографике можно почитать 62-ом параграфе Ководства . Если ваша деятельность каким-то образом связана с наполнением контентом/дизайном сайтов, то настоятельно рекомендую как следует присмотреться к этой книге

2. Главред


Известный копирайтер Максим Ильяхов несколько лет назад создал собственную школу, где учит людей писать в так называемом «инфостиле» - максимально доходчиво и без лишней воды. Для того, чтобы человек мог узнать какие именно слова в его тексте не несут смысловой нагрузки, был разработан этот онлайн-сервис. Он находит газетные штампы, балластовые прилагательные, притяжательные местоимения, модальные глаголы и прочие элементы, избыток которых утомляет читателя.

Максим Ильяхов требует доводить свои работы до оценки не ниже 7 по шкале Главреда. Если она больше 9, то текст может получиться сухим и жестким. Иногда проверяю свои тексты, и, как правило, 6,5 – 7 баллов набирается еще до правок. Но основные проблемы, показанные на скриншоте, кочуют из статьи к статье и портят впечатление от текста. Надеюсь избавиться от них в ближайшее время.

3. Подбор синонимов

Если вы ответственный и трудолюбивый человек, то наверняка стараетесь избегать тавтологии. Этот сервис поможет подобрать похожие по смыслу слова и придать тексту чуть больше художественной выразительности.

4. Счетчик символов

5. Подбор рифм

Не знаю сколько среди читателей сайт поэтов, но без этого сайта подборка была бы неполной. Если у вас есть маленькие дети, то с его помощью можно играть с ними в игру «Сочини стишок», чтоб развивать у них языковые навыки.

6. Грамота.ру

Здесь собраны все действующие на данный момент правила русского языка, учебные пособия, онлайн-упражнения для повышения своего уровня грамотности, а на форуме сидят знатоки, у которых можно проконсультироваться в трудной ситуации. Еще тут можно проверить как пишется то или иное слово.

7. Проверка читаемости текста

Этот сервис оценивает читаемость текста по нескольким шкалам (в скобках даны приблизительные пояснения, точные формулы для расчета индексов вы легко найдете сами, если интересно):

  • Индекс удобочитаемости Флеша (рассчитывается по соотношению число слов к числу предложений и числу слогов к числу слов);
  • Индекс Колмана – Лиау (рассчитывается по соотношения числу слов к числу предложений и числу букв к числу слов);
  • Индекс Dale–Chall (учитывает сложность слов);
  • Автоматический индекс удобочитаемости (учитывает соотношение числа букв в тексте к числу слов);
  • Индекс SMOG (учитывает число слов длиннее трех слогов)

В результате выносится вердикт для какой возрастной группы будет понятен проверяемый текст. Опусы IT-журналистов обычно определяются предназначенными для людей 15-16 лет. Это не очень хорошо, так как великолепные тексты проверенных мной русских классиков сайт признает годными для детей 9-11 лет.

8. Поиск повторов слов


Здесь можно проверить соблюдается ли в тексте закон Ципфа. Очень грубо и приблизительно поясню, что это значит.
Для каждого слова в языке рассчитывается его частота употребления. Условно : для предлога «в» она равна 3, для слова «однажды» 1000, а для «васильковый» 10000. Если слово в тексте встречается намного чаще, чем это положено ему по рангу популярности, то наблюдается несоблюдение закона, которое снижает качество восприятия текста.
После проверки текста будет отображен список из 20 самых популярных слов и рекомендации по оптимальному количеству повторов для каждого слова, которое бы соответствовало закону Ципфа.

9. Анализ настроения автора текста

Это забавный сервис с дизайном, хранящим светлую память ранних двухтысячных, который находит в тексте слова, соответсвующие определенным эмоциями и выдает предположения о душевном состоянии того, кто его написал.. Если у кого-то получится позитивный результат, отпишитесь о нем пожалуйста.

10. Сравнение двух текстов

И напоследок сайт, на котором можно найти отличия между двумя текстами. Да, такая возможность есть в большинстве текстовых редакторов, но иногда бывает удобно делать это именно онлайн.

Индекс удобочитаемости - мера определения сложности восприятия текста читателем. Индекс удобочитаемости может вычисляться на основе нескольких параметров: длины предложений, слов, удельного количества наиболее частотных (или редких) слов и т. д.

Индекс удобочитаемости Флеша

Наиболее популярная мера была создана Рудольфом Флешем , изначально для английского языка . Она оценивает сложность текста по следующей формуле:

FRE = 206.835 - 1.015 \left (\frac{\mbox{total words}}{\mbox{total sentences}} \right) - 84.6 \left (\frac{\mbox{total syllables}}{\mbox{total words}} \right) Либо:

FRE = 206.835 − (1.015 × ASL) − (84.6 × ASW)

Индекс по шкале FRES (Flesch Reading Ease Scale) распределяется таким образом:

100 : Очень легко читается. Средняя длина предложения составляет 12 или менее слов. Нет слов из более чем двух слогов. 65 : простой английский язык. Средняя длина предложения составляет от 15 до 20 слов. В среднем слова имеют 2 слога. 30 : Немного трудно читать. Предложения содержат до 25-ти слов. Обычно, двусложные слова. 0 : Очень трудно читать. B среднем предложение имеет 37 слов. Слово имеет в среднем более 2-х слогов

Для английского яз. значение 90-100 соответствует легкому тексту для младших школьников, 60-70 - тексту, который могут читать выпускники школы, тексты с индексом 0-30 предназначены для людей с высшим образованием.

FRE = 206.835 − (1.3 × ASL) − (60.1 × ASW)

В целом, большинство методов оценки сложности текста на основе индексов удобочитаемости для информационно-аналитических документов на русском языке дают оценки, выходящие как за интерпретируемый диапазон значений, так и за референсные значения. При этом получаемые результаты характеризуются высокой степенью корреляции, так как разработчики используют одну математическую модель линейной регрессии, а также однообразные параметры текста (средняя длина слова, средняя длина предложения). При этом индексы удобочитаемости не адаптированы к тестам для взрослых. У профессионала не должно возникать затруднений с пониманием многосложных слов. В конечном итоге фактором сложности выступает семантика текста и абстрактность его изложения. Индикаторы на основе индексов удобочитаемости недостаточно хорошо интерпретируются, поскольку не могут напрямую быть использованы для прогнозирования времени обработки текста тем или иным человеком.

Напишите отзыв о статье "Индекс удобочитаемости"

Примечания

Отрывок, характеризующий Индекс удобочитаемости

На дворе еще было совсем темно. Дождик прошел, но капли еще падали с деревьев. Вблизи от караулки виднелись черные фигуры казачьих шалашей и связанных вместе лошадей. За избушкой чернелись две фуры, у которых стояли лошади, и в овраге краснелся догоравший огонь. Казаки и гусары не все спали: кое где слышались, вместе с звуком падающих капель и близкого звука жевания лошадей, негромкие, как бы шепчущиеся голоса.
Петя вышел из сеней, огляделся в темноте и подошел к фурам. Под фурами храпел кто то, и вокруг них стояли, жуя овес, оседланные лошади. В темноте Петя узнал свою лошадь, которую он называл Карабахом, хотя она была малороссийская лошадь, и подошел к ней.
– Ну, Карабах, завтра послужим, – сказал он, нюхая ее ноздри и целуя ее.
– Что, барин, не спите? – сказал казак, сидевший под фурой.
– Нет; а… Лихачев, кажется, тебя звать? Ведь я сейчас только приехал. Мы ездили к французам. – И Петя подробно рассказал казаку не только свою поездку, но и то, почему он ездил и почему он считает, что лучше рисковать своей жизнью, чем делать наобум Лазаря.
– Что же, соснули бы, – сказал казак.
– Нет, я привык, – отвечал Петя. – А что, у вас кремни в пистолетах не обились? Я привез с собою. Не нужно ли? Ты возьми.
Казак высунулся из под фуры, чтобы поближе рассмотреть Петю.
– Оттого, что я привык все делать аккуратно, – сказал Петя. – Иные так, кое как, не приготовятся, потом и жалеют. Я так не люблю.
– Это точно, – сказал казак.
– Да еще вот что, пожалуйста, голубчик, наточи мне саблю; затупи… (но Петя боялся солгать) она никогда отточена не была. Можно это сделать?
– Отчего ж, можно.
Лихачев встал, порылся в вьюках, и Петя скоро услыхал воинственный звук стали о брусок. Он влез на фуру и сел на край ее. Казак под фурой точил саблю.
– А что же, спят молодцы? – сказал Петя.
– Кто спит, а кто так вот.
– Ну, а мальчик что?
– Весенний то? Он там, в сенцах, завалился. Со страху спится. Уж рад то был.
Долго после этого Петя молчал, прислушиваясь к звукам. В темноте послышались шаги и показалась черная фигура.
– Что точишь? – спросил человек, подходя к фуре.
– А вот барину наточить саблю.
– Хорошее дело, – сказал человек, который показался Пете гусаром. – У вас, что ли, чашка осталась?
– А вон у колеса.
Гусар взял чашку.
– Небось скоро свет, – проговорил он, зевая, и прошел куда то.
Петя должен бы был знать, что он в лесу, в партии Денисова, в версте от дороги, что он сидит на фуре, отбитой у французов, около которой привязаны лошади, что под ним сидит казак Лихачев и натачивает ему саблю, что большое черное пятно направо – караулка, и красное яркое пятно внизу налево – догоравший костер, что человек, приходивший за чашкой, – гусар, который хотел пить; но он ничего не знал и не хотел знать этого. Он был в волшебном царстве, в котором ничего не было похожего на действительность. Большое черное пятно, может быть, точно была караулка, а может быть, была пещера, которая вела в самую глубь земли. Красное пятно, может быть, был огонь, а может быть – глаз огромного чудовища. Может быть, он точно сидит теперь на фуре, а очень может быть, что он сидит не на фуре, а на страшно высокой башне, с которой ежели упасть, то лететь бы до земли целый день, целый месяц – все лететь и никогда не долетишь. Может быть, что под фурой сидит просто казак Лихачев, а очень может быть, что это – самый добрый, храбрый, самый чудесный, самый превосходный человек на свете, которого никто не знает. Может быть, это точно проходил гусар за водой и пошел в лощину, а может быть, он только что исчез из виду и совсем исчез, и его не было.